반응형
[Paper 리뷰] M2-CTTS: End-to-End Multi-Scale Multi-Modal Conversational Text-to-Speech Synthesis
M2-CTTS: End-to-End Multi-Scale Multi-Modal Conversational Text-to-Speech SynthesisConversational text-to-speech는 historical conversation을 기반으로 적절한 prosody를 가진 음성을 합성하는 것을 목표로 함BUT, 기존 방식들은 대부분 global information 추출에만 초점을 맞추고 있으므로 keyword나 emphasis 같은 fine-grained information이 포함된 local prosody feature가 생략됨M2-CTTSHistorical conversation을 종합적으로 활용하고 prosodic expression을 향상하는 end-to-end multi-scal..
Paper/TTS
2024. 5. 10. 09:55
반응형