반응형
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/lYokj/btsMlkcuBNx/PDyX2OjRcsT2cKosdBpsw1/img.png)
Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised DisentanglementVoice imitation은 annotated data에 크게 의존하고 timbre/style을 disentangle 하는데 어려움이 있음VevoContent-Style Modeling을 통해 text/speech content token을 input으로 하고 style reference로 prompt 되는 content-style token을 생성Acoustic Modeling을 통해 content-style token을 기반으로 flow-matching transformer를 사용해 timbre reference로 prompt 되는 acoustic repr..
Paper/Conversion
2025. 2. 15. 17:28
반응형