반응형
[Paper 리뷰] PromptVC: Flexible Stylistic Voice Conversion in Latent Space Driven by Natural Language Prompts
PromptVC: Flexible Stylistic Voice Conversion in Latent Space Driven by Natural Language Prompts기존의 voice conversion은 pre-defined label이나 reference speech에 의존적이므로 style의 한계가 있음PromptVCLatent diffusion model을 활용하여 natural language prompt에 의해 driven 된 style vector를 생성Style expressiveness를 향상하기 위해 HuBERT를 활용하여 discrete token을 추출하고, $k$-means center embedding을 적용하여 residual style information을 최소화추가적..
Paper/Conversion
2024. 9. 1. 10:10
반응형