Mega-TTS2: Boosting Prompting Mechanisms for Zero-Shot Speech SynthesisZero-shot text-to-speech에서 prompting mechanism은 다음의 문제를 가지고 있음- 대부분 single-sentence prompt로 training 되므로 추론 시 주어지는 data가 다양한 경우 성능이 제한됨- Prompt의 prosodic information은 timbre와 highly couple 되어 있고, 서로 untransferable 함Mega-TTS2고품질 reconstruction을 제공하면서 prosody, timbre information을 compressed latent space로 separately encode 하는 ac..
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the WildSpeech editing, zero-shot text-to-speech를 위해 token infilling neural codec language model을 구성할 수 있음VocieCraftTransformer decoder architecture와 causal masking, delayed stacking을 결합하여 existing sequence 내에서 generation을 수행하는 token rearrangement를 도입추가적으로 speech editing evaluation을 위한 RealEdit dataset을 제공논문 (ACL 2024) : Paper Link1. Int..
RAD-MMM: Multilingual Multiaccented Multispeaker Text to SpeechIndividual voice characteristic을 retaining 하면서 native accent를 가지는 음성을 생성할 수 있는 multilingual system이 요구됨이를 위한 bilingual data는 expansive 하지만, 해당 data가 부족한 경우 speaker, language, accent 간의 entangle로 인해 합성 성능이 저하됨RAD-MMMAccent, language, speaker, fine-grained $F_{0}$, energy feature를 explicit control 하는 RAD-TTS를 기반으로 multilingual task로 확장..
Generative De-quantization for Neural Speech Codec via Latent DiffusionLow-bitrate speech coding에서 end-to-end network는 compact, expressive feature와 powerful decoder를 학습하는 것을 목표로 함- BUT, 여전히 complexity와 speech quality 측면에서 한계가 있음LaDiffCodecLow-dimensional discrete token을 학습하기 위해 end-to-end codec을 구성Latent diffusion model을 사용하여 coded feature를 high-dimensional continuous space로 de-quantize추가적으로 ove..
PeriodSinger: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice Synthesis자연스러운 waveform을 합성하기 위해서는 deterministic pitch conditioning으로 인한 one-to-many 문제를 해결해야 함PeriodSingerPeriodic/aperiodic component에 대한 variational autoencoder를 활용Note boundary 내에서 monotonic alignment search를 통해 phoneme alignment를 추정함으로써 external aligner에 대한 의존성을 제거논문 (INTE..
TacoLM: Gated Attention Equipped Codec Language Model are Efficient Zero-shot Text to Speech SynthesizersNeual codec language model은 zero-shot text-to-speech에서 우수한 성능을 보이고 있음BUT, autoregressive nature와 text-audio 간의 implicit alignment로 인해 속도의 한계가 있음TacoLMTraining/inference 속도를 향상하고 model size를 줄이기 위해 gated attention mechanism을 도입추가적으로 각 decoder layer마다 gated cross-attention layer를 적용하여 합성 품질과 ef..