
LightVoc: An Upsampling-Free GAN Vocoder based on Conformer and Inverse Short-Time Fourier Transform Generative Adversarial Network (GAN) 기반의 기존 vocoder는 mel-spectrogram으로부터 audio를 생성하기 위해 iterative upsampling을 필요로 함 - Iterative upsampling은 network 복잡도를 증가시키므로 vocoder의 추론 속도를 저하시키는 주요 원인 LightVoc Upsampling block을 Conformer block으로 대체하는 GAN-based vocoder 새로운 discriminator 조합을 도입하여 full-band에 걸쳐 ..

AdaSpeech: Adaptive Text to Speech for Custom Voice TTS adaptation에서 custom voice를 활용하기 위해서는 2가지 과제가 있음 - Adaptation 모델은 source speech data와 상당히 다른 다양한 acoustic condition을 처리할 수 있어야 함 - 음성 품질을 유지하면서 적은 memory 사용량을 가지도록 각 target speaker에 대한 adaptation parameter가 작아야 함 AdaSpeech 고품질 합성과 효율적인 voice customization을 지원하는 adaptive TTS 모델 다양한 acoustic condition을 처리하기 위해 utterance, phoneme level 모두에서 aco..

선정 기준 : 작성자 마음대로 뽑습니다. 1998년도 앨범 결산 1. 개인적인 추천 앨범 Broder Daniel - : 강렬하고 밀도 높은 스웨덴산 얼터너티브 록 앨범입니다. 시끄러운 소음 위에서 멜로디컬한 기타를 타고 퍼져나가는 포스트-펑크의 고딕적인 감성은 왜 리스너들이 북유럽의 보석들을 찾아 헤매는지에 대한 이유를 여실히 말해줍니다. Broder Daniel - 'I'll Be Gone' 2. 올해의 국내 싱글 허클베리핀 - '보도블럭' : 후에 3호선 버터플라이로 옮겨가는 남상아의 폭발적인 보컬을 필두로 한 파괴적인 그런지 사운드가 돋보이는 싱글입니다. 세기말을 향해 달려가던 당시의 혼란스러운 세태를 반영하는 듯한 음울함 역시 빼놓을 수 없는 매력 요소입니다. 허클베리핀 - '보도블럭' 3. 올..

PeriodGrad: Towards Pitch-Controllable Neural Vocoder based on a Diffusion Probabilistic Model Diffuision-based vocoder는 고품질의 합성이 가능하고 간단한 time-domain loss로 학습할 수 있지만 pitch control이 어려움 PeriodGrad Explicit periodic signal을 auxiliary conditioning signal로써 Denoising Diffusion Probabilistic Model에 통합 Waveform의 periodic structure를 정확하게 capture 하여 pitch controllability를 향상 논문 (ICASSP 2024) : Paper Li..

AudioLM: A Language Modeling Approach to Audio Generation고품질 audio 생성을 위해 long-term consistency를 갖춘 language model을 활용할 수 있음AudioLMInput audio를 discrete token sequence에 mapping 하고 해당 representation space에서 audio 생성을 language modeling으로 cast 함Audio에 pre-train 된 masked language model의 discretized activation을 사용하여 neural audio codec의 long-term structure와 discrete code를 capture논문 (TASLP 2023) : Pape..

선정 기준 : 작성자 마음대로 뽑습니다. 1997년도 앨범 결산 1. 개인적인 추천 앨범 The Promise Ring - : 캐치함과 불안한 이모(Emo)적 감수성이 공존하는 달콤씁쓸한 90년대 이모 팝 보석입니다. 미드웨스트 이모에 기반을 둔 센티멘탈한 기타 아르페지오는 오래전 여름날의 햇빛처럼 밝게 타오르며 아련한 향수를 불러일으킵니다. The Promise Ring - 'Red & Blue Jeans' 2. 올해의 국내 싱글 델리스파이스 - '챠우챠우' : 델리스파이스의 대표곡이자 어쩌면 전국민의 뇌리에 각인되어 있을 기막힌 도입부를 품고 있는 싱글입니다. 종종 The Cure의 'Disintegration'과 닮았다는 논란이 있기도 하지만, 분명한 것은 '챠우챠우'가 없었다면 지금의 한국 인디록..

MusicLM: Generating Music From Text주어진 text description으로부터 high-fidelity의 음악을 생성하는 Language Model을 구성할 수 있음MusicLMConditional music generation process를 hierarchical sequence-to-sequence modeling으로 cast추가적으로 music-text pair를 가진 MusicCaps dataset을 공개논문 (Google Research 2023) : Paper Link1. IntroductionConditional neural audio generation은 text-to-speech와 lyrics-conditioned music generation, MIDI s..

nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-Shot Multi-Speaker Text-to-Speech Multi-speaker text-to-speech를 활용하기 위해서는 어려움이 많음 nnSpeech Fine-tuning 없이 하나의 adpatation utterance만을 사용하여 새로운 speaker voice를 합성할 수 있는 zero-shot multi-speaker 모델 Speaker-guided conditional vairational autoencoder를 활용하여 speaker, content information을 모두 포함하는 variable $Z$를 생성 Latent variable $Z$의 분포..

선정 기준 : 작성자 마음대로 뽑습니다. 1996년도 앨범 결산 1. 개인적인 추천 앨범 Sunny Day Service - : Sunny Day Service의 세번째 앨범이자 매력적인 시부야계(Shibuya-kei) 앨범입니다. 나른한 기타와 벚꽃처럼 흩날리는 건반은 마치 봄의 전령처럼 앨범 아트 속 이미지를 완벽하게 재현해냅니다. Sunny Day Service - 'あじさい' 2. 올해의 국내 싱글 언니네이발관 - '푸훗' : 이석원의 블러핑이 만들어낸 거대한 스노우볼은 90년대 한국 음악사의 큰 변곡점을 만들어 냈습니다. 특히 '푸훗'에서 보여준 언니네이발관의 캐치한 얼터너티브 사운드는, 이후 메탈에 점령된 홍대를 무너뜨릴 인디 1세대의 첫 발화점이 되었습니다. 언니네이발관 - '푸훗' 3. 올..