
FastVoiceGrad: One-Step Diffusion-based Voice Conversion with Adversarial Conditional Diffusion DistillationDiffusion-based Voice Conversion은 multi-step reverse diffusion으로 인해 추론 속도가 느림FastVoiceGrad기존 voice conversion model의 성능을 유지하면서 multi-step iteration을 one-step으로 reduce이를 위해 Adversarial Conditional Diffusion Distillation을 도입하고 sampling 시 initial state를 reconsidering논문 (INTERSPEECH 2024) : Pa..

TS3-Codec: Transformer-based Simple Streaming Single Codec대부분의 neural audio codec은 convolution을 기반으로 함TS3-CodecTransformer와 linear layer로만 구성된 simple streaming single codecConvolution layer를 fully eliminate 하여 simplicity와 expressiveness를 향상논문 (INTERSPEECH 2025) : Paper Link1. IntroductionNeural Audio Codec (NAC)는 audio signal을 discretized code로 compress 하는 것을 목표로 함특히 NAC는 AudioLM, VALL-E 등의 Spee..

AF-Vocoder: Artifact-Free Neural Vocoder with Global Artifact FilterGenerative Adversarial Network 기반의 vocoder는 audible artifact로 인한 합성 품질의 한계가 있음AF-VocoderArtifact removal을 위해 frequency-domain artifact filter인 GAFilter를 도입GAFilter는 frequency control을 위해 desired inductive bias를 enforce 함논문 (INTERSPEECH 2025) : Paper Link1. IntroductionVocoder는 acoustic feature를 speech waveform으로 변환하는 것을 목표로 함특히 ..

APTTS: Adversarial Post-Training in Latent Flow Matching for Fast and High-Fidelity Text-to-SpeechFlow matching 기반의 Text-to-Speech model은 sampling step에 의존적임APTTSAdversarial post-training strategy를 도입해 sampling step 수를 절감 Pre-trained flow matching model을 few-step generator로 취급하고 reconstruction, adversarial objective를 통해 optimization을 수행논문 (INTERSPEECH 2025) : Paper Link1. IntroductionZero-shot T..

VALL-E2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers기존의 VALL-E를 추가적으로 개선할 수 있음VALL-E2Repetition Aware Sampling을 통해 기존 nucleus sampling process를 향상Grouped Code Modeling을 통해 inference speed와 long sequence modeling을 개선논문 (Microsoft 2025) : Paper Link1. IntroductionText-to-Speech (TTS)는 text input으로부터 high clarity, intelligibility를 가진 high-quality speech를 생성하는..

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model기존 audio codec은 audio compression을 위해 설계되어 있으므로 Large Language Model에서 최적의 성능을 발휘하기 어려움X-CodecResidual Vector Quantization 이전에 pre-trained semantic encoder를 incorporateResidual Vector Quantization 이후에는 semantic reconstruction loss를 적용논문 (AAAI 2025) : Paper Link1. IntroductionAudioLM, VALL-E와 같이 audio generatio..