
EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice ConversionEmotional Voice Conversion은 linguistic content는 preserve 하면서 source emotion을 주어진 target으로 convert 하는 것을 목표로 함EmoRegEmotion intensity를 control 하기 위해 Self-Supervised Learning-based feature representation을 활용추가적으로 emotional embedding space에서 Unsupervised Directional Latent Vector Mod..

SEVC: Voice Conversion via Structural Entropy기존의 voice conversion method는 prosody leakage, speech representation blurring의 문제가 있음SEVCSource, reference speech에서 self-supervised representation을 추출하고 reference speech representation을 graph로 구축이후 2D Structural Entropy를 사용하여 semantically similar representation을 clustering- Voice conversion 시 source representation의 각 frame을 new node로 취급하고, SE를 통해 각 nod..

CASC-XVC: Zero-Shot Cross-Lingual Voice Conversion with Content Accordant and Speaker Contrastive LossesCross-Lingual Voice Conversion은 language mismatch와 train-test inconsistency로 인해 한계가 있음CASC-XVCContent accordant loss와 Speaker contrastive loss를 incorporate 하고 content disentanglement를 위해 shared self-supervised learning representation과 information perturbation을 도입서로 다른 language의 utterance pair를..

AdaptVC: High Quality Voice Conversion with Adaptive LearningVoice conversion을 위해서는 source에서 disentangled linguistic content를 추출하고 reference에서 voice style을 추출할 수 있어야 함AdaptVCAdapter를 활용하여 self-supervised speech feature를 tuning 해 content, speaker를 효과적으로 disentangleCross-attention speaker conditioning과 conditional flow matching을 활용하여 synthesis quality를 향상논문 (ICASSP 2025) : Paper Link1. Introductio..

NANSY++: Unified Voice Synthesis with Neural Analysis and Synthesis대부분의 voice synthesis model은 annotated label과 pair 되는 audio data가 필요함NANSY++Annotated paired audio data 없이 self-supervised manner로 backbone network를 trainingTraining 이후 각 voice application에 맞는 analysis feature를 partially modeling 하여 사용논문 (ICLR 2023) : Paper Link1. IntroductionGlow-TTS, Diff-TTS와 같은 기존 voice synthesis model은 labele..

Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised RepresentationsInformation bottleneck에 기반한 synthesis control은 reconstruction quality 측면에서 한계가 있음NANSYOriginal input signal의 information을 perturb 하여 synthesis network가 input signal reconstruction을 위한 essential attribute를 selectively take 하도록 유도Wav2Vec feature와 pitch feature인 Yingram을 사용하여 fully self-supervised training을 지원논..