반응형

VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow MatchingZero-Shot Voice Conversion은 speaker similarity 측면에서 여전히 한계가 있음VoicePrompterSpeech component를 disentangle 하는 factorization method를 활용Factorized feature와 voice prompt에 대한 conditioning을 수행하는 DiT-based Conditional Flow Matching Decoder를 도입Latent Mixup을 통해 various speaker feature를 combining 하여 in-context l..
Paper/Conversion
2025. 4. 7. 17:28
반응형