반응형
DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained GuidanceControllable Text-to-Speech는 attribute entanglement로 인한 한계점을 가지고 있음DMP-TTSCLAP-based style encoder를 활용해 reference audio와 descriptive text의 cue를 align 하고 style attribute에 대한 contrastive learning과 multi-task supervision으로 training추론 시에는 chained Classifier-Free Guidance를 도입하여 style guidance strength를 in..
Paper/TTS
2026. 3. 11. 11:08
반응형
