
VALL-E2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers기존의 VALL-E를 추가적으로 개선할 수 있음VALL-E2Repetition Aware Sampling을 통해 기존 nucleus sampling process를 향상Grouped Code Modeling을 통해 inference speed와 long sequence modeling을 개선논문 (Microsoft 2025) : Paper Link1. IntroductionText-to-Speech (TTS)는 text input으로부터 high clarity, intelligibility를 가진 high-quality speech를 생성하는..

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model기존 audio codec은 audio compression을 위해 설계되어 있으므로 Large Language Model에서 최적의 성능을 발휘하기 어려움X-CodecResidual Vector Quantization 이전에 pre-trained semantic encoder를 incorporateResidual Vector Quantization 이후에는 semantic reconstruction loss를 적용논문 (AAAI 2025) : Paper Link1. IntroductionAudioLM, VALL-E와 같이 audio generatio..

INTERSPEECH는 8월 중순에 열려서 지금은 딱히 볼만한 논문도 없고, 블로그의 균형도 지켜야 하니 오랜만에 음악 이야기나 해봅시다. 가뭄에 콩 나듯 쓰는 음악글이지만 의외로 이 블로그 트래픽의 50%는 일본 슈게이즈 가이드가 차지합니다. 그리고 30% 정도는 CV 분야의 EDM 리뷰가 차지하니 역시 그들만의 리그다운 음성 AI 관심도를 엿볼 수 있습니다. 아무튼 본론으로 돌아와서, 이런 날씨에 무슨 시끄럽고 노이즈 윙윙 거리는 음악을 듣냐고 하겠지만 개인적인 경험상 슈게이즈는 지극히 멜로디 지향적인 장르입니다. 모더니즘을 따라 소음 그 자체에 본질을 두고 누가 더 패러다임을 무너뜨리나 대결을 펼치는 인더스트리얼/노이즈 계열과는 달리, 슈게이즈는 단순히 선율의 몽환을 구체화하는 '수단'으로써 소..

CLAP: Learning Audio Concepts from Natural Language SupervisionRestricted supervision 하에서 training 된 audio model은 flexibility의 한계가 있음CLAPNatural language supervision을 통해 audio concept을 학습2개의 encoder와 contrastive learning을 활용하여 audio, text description을 joint multimodal space로 modeling논문 (ICASSP 2023) : Paper Link1. Introduction대부분의 audio model은 specific task의 pre-defined category와 audio recording..

CosyVoice3: Towards In-the-Wild Speech Generation via Scaling-up and Post-Training앞선 CosyVoice2는 language coverage, domain diversity, data volume 측면에서 한계가 있음CosyVoice3Supervised multi-task training에 기반한 speech tokenizer를 도입Differentiable reward model을 위한 post-training을 적용Data size, model size scaling을 통해 다양한 domain과 text format을 지원논문 (Alibaba 2025) : Paper Link1. IntroductionZero-shot Text-to-Sp..

CosyVoice2: Scalable Streaming Speech Synthesis with Large Language Models기존 CosyVoice를 추가적으로 개선할 수 있음CosyVoice2Speech token의 codebook utilization을 향상하는 finite-scalar quantization을 도입Pre-trained large language model을 backbone으로 사용할 수 있도록 architecture를 streamline 하고 chunk-aware causal flow matching model을 통해 streaming/non-streaming synthesis를 지원논문 (Alibaba 2024) : Paper Link1. IntroductionZero-sh..