반응형
[Paper 리뷰] Mels-TTS: Multi-Emotion Multi-Lingual Multi-Speaker Text-to-Speech System via Disentangled Style Tokens
Mels-TTS: Multi-Emotion Multi-Lingual Multi-Speaker Text-to-Speech System via Disentangled Style Tokens효과적인 emotion transfer를 위해 disentangled style token을 활용할 수 있음Mels-TTSGlobal style token에서 영감을 받아 emotion, language, speaker, residual information을 disentangle 하는 개별적인 style token을 활용Attention mechanism을 적용하여 각 style token에서 target speech에 대한 speech attribute를 학습논문 (ICASSP 2024) : ..
Paper/TTS
2024. 4. 24. 10:21
반응형