반응형
LM-VC: Zero-Shot Voice Conversion via Speech Generation based on Language ModelsZero-shot voice conversion을 위해 language model을 활용할 수 있음LM-VCSource linguistic content와 target speaker timbre를 recover 하는 coarse token과 converted speech의 acoustic detail을 reconstruct 하는 fine token을 활용Content preservation과 disentanglement를 위해 masked prefix Language Model을 적용추가적으로 sampling error를 alleviate 하기 위해 local a..
Paper/Conversion
2025. 7. 7. 17:04
반응형
