RAD-MMM: Multilingual Multiaccented Multispeaker Text to SpeechIndividual voice characteristic을 retaining 하면서 native accent를 가지는 음성을 생성할 수 있는 multilingual system이 요구됨이를 위한 bilingual data는 expansive 하지만, 해당 data가 부족한 경우 speaker, language, accent 간의 entangle로 인해 합성 성능이 저하됨RAD-MMMAccent, language, speaker, fine-grained $F_{0}$, energy feature를 explicit control 하는 RAD-TTS를 기반으로 multilingual task로 확장..
Generative De-quantization for Neural Speech Codec via Latent DiffusionLow-bitrate speech coding에서 end-to-end network는 compact, expressive feature와 powerful decoder를 학습하는 것을 목표로 함- BUT, 여전히 complexity와 speech quality 측면에서 한계가 있음LaDiffCodecLow-dimensional discrete token을 학습하기 위해 end-to-end codec을 구성Latent diffusion model을 사용하여 coded feature를 high-dimensional continuous space로 de-quantize추가적으로 ove..
PeriodSinger: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice Synthesis자연스러운 waveform을 합성하기 위해서는 deterministic pitch conditioning으로 인한 one-to-many 문제를 해결해야 함PeriodSingerPeriodic/aperiodic component에 대한 variational autoencoder를 활용Note boundary 내에서 monotonic alignment search를 통해 phoneme alignment를 추정함으로써 external aligner에 대한 의존성을 제거논문 (INTE..
TacoLM: Gated Attention Equipped Codec Language Model are Efficient Zero-shot Text to Speech SynthesizersNeual codec language model은 zero-shot text-to-speech에서 우수한 성능을 보이고 있음BUT, autoregressive nature와 text-audio 간의 implicit alignment로 인해 속도의 한계가 있음TacoLMTraining/inference 속도를 향상하고 model size를 줄이기 위해 gated attention mechanism을 도입추가적으로 각 decoder layer마다 gated cross-attention layer를 적용하여 합성 품질과 ef..
MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion GuidanceSinging voice synthesis를 위해 semi-supervised training을 활용할 수 있음MakeSingerLabeling에 관계없이 모든 speech, singing voice data에서 diffusion-based model을 trainingDual guiding mechanism을 통해 maske input의 score를 추정하여 reverse diffusion step에 대한 text/pitch guidance를 제공논문 (INTERSPEECH 202..
Bunched LPCNet: Vocoder for Low-cost Neural Text-to-Speech SystemsLPCNet은 linear prediction과 neural network를 결합하여 computational complexity를 크게 낮출 수 있음Bunched LPCNetLPCNet이 추론 당 둘 이상의 audio sample을 생성하도록 하는 sample-bunchingLPCNet final layer에서 computation을 줄이는 bit-bunching을 도입논문 (INTERSPEECH 2020) : Paper Link1. IntroductionLPCNet은 추론 속도와 합성 품질 측면에서 뛰어난 성능을 달성함특히 source-filter model을 기반으로 low-cost..