반응형
[Paper 리뷰] MM-TTS: Multi-Modal Prompt Based Style Transfer for Expressive Text-to-Speech Synthesis
MM-TTS: Multi-Modal Prompt Based Style Transfer for Expressive Text-to-Speech SynthesisText-to-Speech에서 style transfer는 style information을 text context에 반영하여 특정 style을 가진 음성을 생성하는 것을 목표로 함BUT, 기존의 style transfer 방식들은 fixed emotional label이나 reference clip에 의존하므로 flexible 한 style transfer의 한계가 있음MM-TTS생성되는 음성의 style을 control 하기 위해 reference speech, emotional facial image, text description 등을 포함하는..
Paper/TTS
2024. 4. 23. 09:45
반응형