반응형
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-SpeechLarge-scale autoregressive Text-to-Speech model은 token-by-token generation으로 인해 synthesized speech의 duration을 control 하기 어려움IndexTTS2Token 수를 explicitly specify 하거나 autoregressive manner로 freely generate 하여 duration을 controlEmotional expression, speaker identity 간의 disentanglement를..
Paper/TTS
2026. 4. 2. 13:42
반응형
