FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments with AttentionAny-to-Any voice conversion은 unseen any speaker에 대해 voice conversion을 수행하는 것을 목표로 함FragmentVCWav2Vec 2.0을 통해 source speaker의 latent phonetic structure를 얻고 target speaker의 spectral feature를 log mel-spectrogram을 통해 얻음두 가지의 서로 다른 feature space를 two-stage training process를 통해 align ..
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross AttentionZero-shot voice conversion은 unseen target speaker로의 변환을 수행할 수 있지만, speaker similarity 측면에서 한계가 있음SEF-VCSpeaker embedding을 사용하지 않고 Position-Agnostic Cross-Attention을 도입하여 reference speech에서 speaker timbre를 학습이후 HuBERT semantic token으로부터 non-autoregressive 방식으로 waveform을 reconstruct논문 (ICASSP 2024) : Paper Link1. Introdu..
DRVC: A Framework of Any-to-Any Voice Conversion with Self-Supervised LearningAny-to-Any voice conversion은 training data에서 벗어난 source/target speaker에 대해 voice conversion을 수행하는 것을 목표로 함- BUT, 기존의 disentangle-based model은 speaker/content style information를 얻는 과정에서 untangle overlapping 문제가 발생함DRVC (Disentangled Representation Voice Conversion)Content encoder, timbre encoder, generator로 구성된 end-to-e..
VQMIVC: Quantization and Mutual Information-based Unsupervised Speech Representation Disentanglement for One-Shot Voice ConversionOne-shot voice conversion은 speech representation disentanglement를 통해 효과적으로 수행될 수 있음- BUT, 기존 방식은 speech representation 간의 correlation을 무시하므로 content information이 leakage 될 수 있음VQMIVCContent encoding 과정에서 vector quantization을 사용하고 training 중에 correlation metric으로써 mutu..
ALO-VC: Any-to-Any Low-Latency One-Shot Voice ConversionNon-parallel low-latency one-shot phonetic posteriorgrams-based voice conversion을 통해 빠른 합성이 가능함ALO-VCPre-trained speaker encoder, pitch predictor, positional encoding을 결합해 구성됨ALO-VC-R은 pre-trained d-vector speaker encoder를 활용하고 ALO-VC-E는 ECAPA-TDNN을 활용해 성능을 개선논문 (INTERSPEECH 2023) : Paper Link1. IntroductionVoice Conversion (VC)는 linguistic..
AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder LossMany-to-Many voice conversion, zero-shot conversion을 위해 Generative Adversarial Network나 conditional Variational AutoEncoder를 활용할 수 있음AutoVCBottleneck이 포함된 AutoEncoder에 기반한 style transfer 방식을 도입Self-reconstruction loss에 대해서만 training 함으로써 distribution-matching style transfer를 수행가능논문 (ICML 2019) : Paper Link1. IntroductionVoice Conve..
