'Paper/Conversion' 카테고리의 글 목록 (2 Page)

[Paper 리뷰] FastVoiceGrad: One-Step Diffusion-based Voice Conversion with Adversarial Conditional Diffusion Distillation

FastVoiceGrad: One-Step Diffusion-based Voice Conversion with Adversarial Conditional Diffusion DistillationDiffusion-based Voice Conversion은 multi-step reverse diffusion으로 인해 추론 속도가 느림FastVoiceGrad기존 voice conversion model의 성능을 유지하면서 multi-step iteration을 one-step으로 reduce이를 위해 Adversarial Conditional Diffusion Distillation을 도입하고 sampling 시 initial state를 reconsidering논문 (INTERSPEECH 2024) : Pa..

Paper/Conversion 2025. 8. 23. 08:39

[Paper 리뷰] ReFlow-VC: Zero-Shot Voice Conversion based on Rectified Flow and Speaker Feature Optimization

ReFlow-VC: Zero-Shot Voice Conversion based on Rectified Flow and Speaker Feature OptimizationDiffusion-based Voice Conversion model은 상당한 sampling step을 요구함ReFlow-VCRectified Flow를 통해 Gaussian distribution을 direct path를 따라 true mel-spectrogram distribution으로 변환추가적으로 content, pitch information을 활용하여 speaker feature를 optimize논문 (INTERSPEECH 2025) : Paper Link1. IntroductionZero-Shot Voice Conversi..

Paper/Conversion 2025. 7. 25. 13:08

[Paper 리뷰] LinearVC: Linear Transformations of Self-Supervised Features through the Lens of Voice Conversion

LinearVC: Linear Transformations of Self-Supervised Features through the Lens of Voice ConversionSelf-supervised representation을 활용하여 voice conversion method를 구성할 수 있음LinearVCSelf-supervised feature에 대한 simple linear transformation을 통해 voice를 convertingAllowed transformation set을 constraining 하고 singular value decomposition을 통해 content, speaker information을 explicitly factorize논문 (INTERSPEECH 20..

Paper/Conversion 2025. 7. 22. 17:03

[Paper 리뷰] ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech

ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and SpeechEmotional Voice Conversion에서 flexible, interpretable control은 여전히 한계가 있음ClapFM-EVCNatural language prompt와 catrgorical label을 통해 guide 되는 emotional contrastive language-audio pre-training model을 도입Pre-trained Automatic Speech Recognition model의 Phonetic PosteriorGram을 seamless fuse..

Paper/Conversion 2025. 7. 9. 17:01

[Paper 리뷰] LM-VC: Zero-Shot Voice Conversion via Speech Generation based on Language Models

LM-VC: Zero-Shot Voice Conversion via Speech Generation based on Language ModelsZero-shot voice conversion을 위해 language model을 활용할 수 있음LM-VCSource linguistic content와 target speaker timbre를 recover 하는 coarse token과 converted speech의 acoustic detail을 reconstruct 하는 fine token을 활용Content preservation과 disentanglement를 위해 masked prefix Language Model을 적용추가적으로 sampling error를 alleviate 하기 위해 local a..

Paper/Conversion 2025. 7. 7. 17:04

[Paper 리뷰] StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion

StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion기존의 Voice Conversion model은 linguistic content의 explicit utilization을 neglect 함StarVCExplicit text modeling을 voice conversion에 integrateText token을 먼저 predict 한 다음 acoustic feature를 synthesize 하는 autoregressive framework를 활용논문 (INTERSPEECH 2025) : Paper Link1. IntroductionVoice Conversion (VC)는 ut..

Paper/Conversion 2025. 7. 3. 17:00

이전 1 2 3 4 5 ··· 10 다음

이전 다음

최근에 올라온 글

최근에 달린 댓글

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리툴바