반응형
VALL-E2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers기존의 VALL-E를 추가적으로 개선할 수 있음VALL-E2Repetition Aware Sampling을 통해 기존 nucleus sampling process를 향상Grouped Code Modeling을 통해 inference speed와 long sequence modeling을 개선논문 (Microsoft 2025) : Paper Link1. IntroductionText-to-Speech (TTS)는 text input으로부터 high clarity, intelligibility를 가진 high-quality speech를 생성하는..
Paper/Language Model
2025. 8. 3. 10:13
반응형
