선정 기준 : 작성자 마음대로 뽑습니다.2025년도 앨범 결산 1. 개인적인 추천 앨범White Reaper - : 2017년 세계 최고의 미국 밴드, 라는 야심찬 앨범을 발매했던 White Reaper가 신보를 들고 돌아왔습니다. 여러 변화를 겪으며 그때의 야망과는 조금 멀어진 것 같지만, 에너지 넘치고 친숙한 얼터너티브 후렴구만큼은 여전히 매력적입니다.White Reaper - 'Blink' 2. 올해의 국내 싱글Low High Low - '장마': 사실 '풍속계'를 뽑고 싶었지만 해당 곡 자체는 2019년에 먼저 공개되었기에, 올해 신보에 수록되었던 미공개 트랙들 중 가장 강렬했던 '장마'를 올해의 국내 싱글로 뽑았습니다. 장맛비처럼 처절하게 쏟아지는 일렉 기타와 그 묵직한 음표들을 뚫고 나오는 보..
PURE Codec: Progressive Unfolding of Residual Entropy for Speech Codec LearningNeural speech codec은 Residual Vector Quantization으로 인한 reconstruction의 한계가 있음PURE CodecPre-trained speech enhancement model을 활용하여 multi-stage quantization을 guidingFirst stage에서는 low-entropy, denoised speech embedding을 reconstruct 하고 second stage에서는 residual high-entropy component를 encode논문 (ASRU 2025) : Paper Link1. I..
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable StylesRich, flexible prosodic variation을 위해서는 text-to-prosody의 one-to-many mapping 문제를 해결해야 함DiffStyleTTSConditional diffusion module과 classifier-free guidance를 활용Speech prosodic feature를 hierarchically modeling 하고 다양한 prosodic style을 control논문 (Coling 2025) : Paper Link1. IntroductionTex..
Language-Codec: Bridging Discrete Codec Representations and Speech Language ModelsDiscrete acoustic codec은 speech language model에서 intermediate representation으로 사용됨Language-CodecMasked Channel Residual Vector Quantization을 도입하여 initial codebook의 excessive information 문제를 해결추가적으로 Fourier transform structure, attention block, refined discriminator를 적용논문 (ACL 2025) : Paper Link1. IntroductionVALL-E..
SimpleSpeech2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion ModelsNon-autoregressive Text-to-Speech model은 duration alignment로 인한 complexity가 있음SimpleSpeech2Autoregressive, Non-autoregressive approach를 combine 하여 straightforward model을 구성Simplified data preparation, fast inference, stable generation을 지원논문 (TASLP 2025) : Paper Link1. Introduction..
Efficient Speech Language Modeling via Energy Distance in Continuous Latent SpaceSpeech language model은 discretization으로 인한 한계가 있음SLEDSpeech waveform을 continuous latent representation의 sequence로 encodingEnergy distance objective를 사용하여 autoregressive modeling을 수행논문 (NeurIPS 2025) : Paper Link1. IntroductionSpeech audio는 integer/floating-point range내의 value를 가지는 lengthy sampling point sequence로 re..
