반응형
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/Z0Sei/btsLMofsF6d/7pikKUHVUw4Xisxx8xkEyk/img.png)
FluentTTS: Text-dependent Fine-grained Style Control for Multi-style TTSNeural text-to-speech model은 local prosodic variation을 flexibly control 할 수 있어야 함FluentTTSUtterance-wise global style embedding을 condition으로 하여 각 text의 fundamental frequency $F0$를 예측함추가적으로 global utterance-wise embedding과 local $F0$ embedding을 input으로 사용하는 multi-style encoder를 통해 multi-style embedding을 추정함논문 (INTERSPEECH 202..
Paper/TTS
2025. 1. 13. 11:12
반응형