ALO-VC: Any-to-Any Low-Latency One-Shot Voice ConversionNon-parallel low-latency one-shot phonetic posteriorgrams-based voice conversion을 통해 빠른 합성이 가능함ALO-VCPre-trained speaker encoder, pitch predictor, positional encoding을 결합해 구성됨ALO-VC-R은 pre-trained d-vector speaker encoder를 활용하고 ALO-VC-E는 ECAPA-TDNN을 활용해 성능을 개선논문 (INTERSPEECH 2023) : Paper Link1. IntroductionVoice Conversion (VC)는 linguistic..
AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder LossMany-to-Many voice conversion, zero-shot conversion을 위해 Generative Adversarial Network나 conditional Variational AutoEncoder를 활용할 수 있음AutoVCBottleneck이 포함된 AutoEncoder에 기반한 style transfer 방식을 도입Self-reconstruction loss에 대해서만 training 함으로써 distribution-matching style transfer를 수행가능논문 (ICML 2019) : Paper Link1. IntroductionVoice Conve..
VQVC: One-Shot Voice Conversion by Vector QuantizationSpeaker label에 대한 supervision 없이 voice conversion을 수행할 수 있음VQVCContent embedding을 discrete code로 모델링하고 quantize-before/quantize-after vector 간의 차이를 speaker embedding으로 취급Vector quantization에 대한 reconstruction loss 만으로 content/speaker information에 대한 strong disentanglement를 달성논문 (ICASSP 2020) : Paper Link1. IntroductionVoice Conversion (VC)는 l..
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net ArchitectureAutoEncoder-based voice conversion은 speaker identity와 input speech content를 disentangle 하여 unseen speaker에 대해 generalize 됨- BUT, imperfect disentanglement로 인해 합성 품질의 한계가 있음VQVC+AutoEncoder-based system에 대해 U-Net architecture를 도입해 conversion 품질을 향상Strong information bottleneck을 위해 latent vector를 quantize 하는 vector quant..
One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance NormalizationSource, target speaker의 example utterance만으로 voice conversion을 수행할 수 있어야 함AdaIN-VCInstance Normalization을 도입해 speaker, content representation을 disentanlging 함Unseen speaker에 대해 one-shot voice conversion이 가능논문 (INTERSPEECH 2019) : Paper Link1. IntroductionVoice Conversion (VC)는 linguistic conten..
AGAIN-VC: A One-Shot Voice Conversion Using Activation Guidance and Adaptive Instance NormalizationVoice Conversion은 일반적으로 disentangle-based learning을 사용하여 speaker와 linguistic content를 분리한 다음, speaker information을 target speaker로 변환하는 방식을 활용함AGAIN-VCActivation guidance와 Adaptive Instance Normalization을 도입해 speaker information의 유출을 방지Single encoder-decoder로 구성되어 합성 품질과 speaker similarity를 향상 논문 (..