
VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow MatchingZero-Shot Voice Conversion은 speaker similarity 측면에서 여전히 한계가 있음VoicePrompterSpeech component를 disentangle 하는 factorization method를 활용Factorized feature와 voice prompt에 대한 conditioning을 수행하는 DiT-based Conditional Flow Matching Decoder를 도입Latent Mixup을 통해 various speaker feature를 combining 하여 in-context l..

ZSVC: Zero-Shot Style Voice Conversion with Disentangled Latent Diffusion Models and Adversarial TrainingStyle voice conversion은 original speaker identity를 유지하면서 source speech의 speaking style을 desired style로 변환하는 것을 목표로 함ZSVCSpeech codec과 speech prompting mechanism을 포함한 latent diffusion model을 활용Speaking style, timbre를 disentangle 하기 위해 information bottleneck을 도입하고 Uncetainty Modeling Adaptive I..

kNN-VC: Voice Conversion with Just Nearest Neighbors최근의 any-to-any voice conversion system은 complexity가 증가하여 reproduce가 어려움kNN-VCSource, reference speech의 self-supervised representation을 추출한 다음, source representation의 각 frame을 reference의 nearest neighbor로 replace최종적으로 pretrained vocoder를 통해 converted representation을 audio로 변환논문 (INTERSPEECH 2023) : Paper Link1. IntroductionVoice Conversion (VC)는..

ExVC: Leveraging Mixture of Experts Models for Efficient Zero-Shot Voice ConversionZero-shot voice conversion은 short target reference를 사용하는 경우 quality와 similarity를 balancing 하기 어려움ExVCMixture of Experts layer와 Conformer module을 결합하여 zero-shot expressiveness를 향상Model을 speaker embedding에 효과적으로 conditioning 하기 위해 Feature-wise Linear Modulation을 도입논문 (ICASSP 2025) : Paper Link1. IntroductionVoice Co..

Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised DisentanglementVoice imitation은 annotated data에 크게 의존하고 timbre/style을 disentangle 하는데 어려움이 있음VevoContent-Style Modeling을 통해 text/speech content token을 input으로 하고 style reference로 prompt 되는 content-style token을 생성Acoustic Modeling을 통해 content-style token을 기반으로 flow-matching transformer를 사용해 timbre reference로 prompt 되는 acoustic repr..

StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow MatchingZero-Shot Voice Conversion은 다음의 한계점이 있음- Style과 timbre를 서로 다른 unseen speaker에게 independently transfer 할 수 없음- Autoregressive modeling이나 sampling step으로 인해 추론 속도가 느림- Converted sample의 품질과 similarity는 여전히 만족스럽지 않음StableVCSpeech를 linguistic content, timbre, style로 decompose하고 conditional flow matching module을 사용하..