SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound대부분의 neural codec은 high bitrate에서 동작하고 narrow domain을 가짐SemantiCodecSpeech, general sound, music 등의 다양한 domain을 100 token/sec 이하의 token으로 compress$k$-means clustering을 통해 discretize 된 Self-Supervised Pre-Trained Audio Masked AutoEncoder와 acoustic encoder로 구성된 dual-encoder architecture를 활용논문 (JSTSP 2024) : Paper Link1. Intro..
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling기존의 speech tokenizer는 high frame rate와 auxiliary pre-trained model에 대한 의존성, complex training process와 같은 한계점이 존재함TaDiCodecDiffusion AutoEncoder를 활용해 quantization, reconstruction에 대한 end-to-end optimization을 수행Text guidance를 diffusion decoder에 integrate 하여 optimal compression을 달성논문 (NeurIPS 2025) : Paper Link1. Introduct..
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks기존의 neural codec은 high bitrate, semantic/acoustic information loss의 문제가 있음FocalCodecFocal modulation을 기반으로 single binary codebook을 사용하여 speech를 compressSemantic/acoustic information을 preserve 하여 다양한 downstream task에서 우수한 성능을 달성논문 (NeurIPS 2025) : Paper Link1. IntroductionAudioLM, AudioGen과 같은 speech language model은 token-based sp..
PAST: Phonetic-Acoustic Speech TokenizerSignal reconstruction과 phonetic information을 jointly modeling 할 수 있음PASTPre-trained self-supervised model 없이 supervised phonetic data를 사용하여 auxiliary task를 통해 domain knowledge를 tokenization process에 integrate추가적으로 real-time application을 위한 streamable architecture를 구성논문 (INTERSPEECH 2025) : Paper Link1. IntroductionSpeech language model은 일반적으로 acoustic toke..
Factorized RVQ-GAN for Disentangled Speech TokenizationBottleneck을 factorize 하는 neural codec을 구성할 수 있음HACPhoneme-level structure를 위한 pre-trained speech encoder와 lexical cue를 위한 text-based encoder의 objective를 활용하여 knowledge distillation objective를 구성Factorized bottleneck을 통해 phoneme align, word-level semantic에 대한 disentangled token set을 생성논문 (INTERSPEECH 2025) : Paper Link1. IntroductionNeural Sp..
LSPNet: An Ultra-Low Bitrate Hybrid Neural CodecUltra-low bitrate에서도 동작할 수 있는 neural codec이 필요함LSPNetLPCNet framework를 기반으로 parameteric encoder를 combine 하여 Line Spectral Pair를 incorporate추가적으로 STFT loss와 Cross-Entropy loss를 활용한 Joint Time-Frequency training strategy를 적용논문 (INTERSPEECH 2025) : Paper Link1. Introduction1.2kbps의 ultra-low bitrate speech coding에서 intelligible, natural-sounding speec..
