DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech SynthesisDiffusion model은 iterative denoising process로 인해 computationally intensive 함DMOSpeechDistilled diffusion-based model을 활용하여 teacher 보다 더 빠른 추론 속도를 달성Connectionist Temporal Classification, Speaker Verification loss에 대한 end-to-end optimization을 지원논문 (ICML 2025) : Paper Link1. IntroductionSpeechX, MaskGC..
EDM2: Analyzing and Improving the Training Dynamics of Diffusion ModelsDiffusion model은 data-driven image synthesis에서 우수한 성능을 보임EDM2Diffusion model architecture에 대한 uneven, inefficient training의 원인을 파악Activation, weight, update magnitude를 expectation에 대해 preserve 하도록 network layer를 redesign추가적으로 training 이후 Exponential Moving Average parameter를 post-hoc setting논문 (CVPR 2024) : Paper Link1. Intro..
FillerSpeech: Towards Human-Like Text-to-Speech Synthesis with Filler Insertion and Filler Style ControlHuman-like conversational speech synthesis를 위해서는 natural filler insertion이 가능해야 함FillerSpeechFiller style을 tokenize 하고 input text에 대한 cross-attention을 적용추가적으로 natural filler insertion이 가능한 Large Language Model-based filler prediction을 도입논문 (EMNLP 2025) : Paper Link1. IntroductionHierSpeech, Vo..
ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching기존의 large-scale text-to-speech model은 massive parameter로 인해 추론 속도가 느림ZipVoiceZipformer-based vector field estimator, text encoder를 도입하고 average upsampling-based initial speech-text alignment를 활용추가적으로 sampling step을 줄이기 위해 flow distillation method를 도입논문 (ASRU 2025) : Paper Link1. IntroductionVALL-E, VoiceBox, MaskGCT와 같은 z..
선정 기준 : 작성자 마음대로 뽑습니다.2025년도 앨범 결산 1. 개인적인 추천 앨범White Reaper - : 2017년 세계 최고의 미국 밴드, 라는 야심찬 앨범을 발매했던 White Reaper가 신보를 들고 돌아왔습니다. 여러 변화를 겪으며 그때의 야망과는 조금 멀어진 것 같지만, 에너지 넘치고 친숙한 얼터너티브 후렴구만큼은 여전히 매력적입니다.White Reaper - 'Blink' 2. 올해의 국내 싱글Low High Low - '장마': 사실 '풍속계'를 뽑고 싶었지만 해당 곡 자체는 2019년에 먼저 공개되었기에, 올해 신보에 수록되었던 미공개 트랙들 중 가장 강렬했던 '장마'를 올해의 국내 싱글로 뽑았습니다. 장맛비처럼 처절하게 쏟아지는 일렉 기타와 그 묵직한 음표들을 뚫고 나오는 보..
PURE Codec: Progressive Unfolding of Residual Entropy for Speech Codec LearningNeural speech codec은 Residual Vector Quantization으로 인한 reconstruction의 한계가 있음PURE CodecPre-trained speech enhancement model을 활용하여 multi-stage quantization을 guidingFirst stage에서는 low-entropy, denoised speech embedding을 reconstruct 하고 second stage에서는 residual high-entropy component를 encode논문 (ASRU 2025) : Paper Link1. I..
