반응형
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dizBEE/btsLDnI3N9r/k9tDbixYLrkyeUcqJd8YM0/img.png)
VoiceLDM: Text-to-Speech with Environmental ContextDescription prompt와 content prompt를 활용하여 audio를 생성할 수 있음- Description prompt는 environmental context를 전달하고 content prompt는 linguistic information을 제공함VoiceLDMLatent diffusion model을 기반으로 하는 text-to-audio model을 채택하고 additional content prompt를 conditional input으로 활용할 수 있도록 확장Contrastive Language-Audio Pretraining과 Whisper를 활용하여 manual annotation, ..
Paper/TTS
2025. 1. 4. 10:19
반응형