반응형
[Paper 리뷰] VoiceLDM: Text-to-Speech with Environmental Context
VoiceLDM: Text-to-Speech with Environmental ContextDescription prompt와 content prompt를 활용하여 audio를 생성할 수 있음- Description prompt는 environmental context를 전달하고 content prompt는 linguistic information을 제공함VoiceLDMLatent diffusion model을 기반으로 하는 text-to-audio model을 채택하고 additional content prompt를 conditional input으로 활용할 수 있도록 확장Contrastive Language-Audio Pretraining과 Whisper를 활용하여 manual annotation, ..
Paper/TTS
2025. 1. 4. 10:19
반응형