
ZSVC: Zero-Shot Style Voice Conversion with Disentangled Latent Diffusion Models and Adversarial TrainingStyle voice conversion은 original speaker identity를 유지하면서 source speech의 speaking style을 desired style로 변환하는 것을 목표로 함ZSVCSpeech codec과 speech prompting mechanism을 포함한 latent diffusion model을 활용Speaking style, timbre를 disentangle 하기 위해 information bottleneck을 도입하고 Uncetainty Modeling Adaptive I..

ComplexDec: A Domain-Robust High-Fidelity Neural Audio Codec with Complex Spectrum Modeling기존의 neural audio codec은 out-of-domain audio를 modeling 하는데 어려움이 있음ComplexDecOut-of-Domain robustness는 codec compression으로 인한 information loss로 인해 발생24kbps bitrate에서 해당 information loss를 완화하기 위해 complex spectral input/output을 활용논문 (ICASSP 2025) : Paper Link1. IntroductionDigital Signal Processing (DSP)-based..

NanoVoice: Efficient Speaker-Adaptive Text-to-Speech for Multiple SpeakersMultiple speaker에 대한 adapter를 활용하여 personalized text-to-speech model을 구성할 수 있음NanoVoiceMultiple reference를 parallel fine-tuning 할 수 있는 batch-wise speaker adaptation을 활용추가적으로 speaker adaptation parameter를 줄이기 위해 parameter sharing을 도입하고, trainable scale matrix를 incorporate논문 (ICASSP 2025) : Paper Link1. IntroductionVALL-E, V..

SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified FlowFlow matching-based speech synthesis model은 inference step을 줄이면서 speech quality를 향상할 수 있음SlimSpeechRectified flow model을 기반으로 parameter 수를 줄이고 teacher model로 활용Reflow operation을 refine 하여 straight sampling trajectory를 가지는 smaller model을 directly derive 하고 distillation method를 통해 성능을 향상논문 (ICASSP 2025) : Paper Link1. Int..

kNN-VC: Voice Conversion with Just Nearest Neighbors최근의 any-to-any voice conversion system은 complexity가 증가하여 reproduce가 어려움kNN-VCSource, reference speech의 self-supervised representation을 추출한 다음, source representation의 각 frame을 reference의 nearest neighbor로 replace최종적으로 pretrained vocoder를 통해 converted representation을 audio로 변환논문 (INTERSPEECH 2023) : Paper Link1. IntroductionVoice Conversion (VC)는..

Wav2Vec 2.0: A Framework for Self-Supervised Learning of Speech RepresentationsSpeech audio만으로 powerful representation을 학습하고 transcribed speech에 대한 fine-tuning을 통해 speech recognition 성능을 향상할 수 있음Wav2Vec 2.0Latent space에서 speech input을 maskJointly learned latent representation의 quantization에 대한 contrastive task를 solve'논문 (NeurIPS 2020) : Paper Link1. IntroductionSpeech recognition에서 labeled data는..