[Paper 리뷰] Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

티스토리 뷰

Paper/Neural Codec

[Paper 리뷰] Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

feVeRin 2025. 8. 2. 07:39

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

기존 audio codec은 audio compression을 위해 설계되어 있으므로 Large Language Model에서 최적의 성능을 발휘하기 어려움
X-Codec
- Residual Vector Quantization 이전에 pre-trained semantic encoder를 incorporate
- Residual Vector Quantization 이후에는 semantic reconstruction loss를 적용
논문 (AAAI 2025) : Paper Link

1. Introduction

AudioLM, VALL-E와 같이 audio generation을 위해 Large Language Model (LLM)이 자주 활용됨
- 특히 SoundStream과 같은 audio codec은 audio LLM에서 continuous audio waveform과 token-based language model을 bridge 하기 위해 사용됨
  - 해당 codec은 high-rate audio signal을 finite token set으로 discretize 하여 LLM architecture를 지원함
- BUT, DAC, HiFi-Codec과 같은 기존 audio codec은 low-compression rate, high-reconstruction quality를 달성하는 것을 목표로 함
  - 즉, 대부분 audio compression을 목적으로 하므로 audio language modeling과는 misalignment가 있음

-> 그래서 audio content understanding에 초점을 맞춘 audio tokenizer인 X-Codec을 제안

X-Codec
- Semantic, acoustic feature를 integrate 한 unified tokenization framework
- 2개의 input, 2개의 output에 기반한 X-shaped structure를 사용하여 Residual Vector Quantization (RVQ) 내에서 semantic, acoustic information을 unify

< Overall of X-Codec >

Semantic, acoustic information을 combine 하여 audio understanding capability를 향상한 neural codec
결과적으로 audio generation task에서 기존 codec 보다 뛰어난 성능을 달성

2. Method

- Acoustic Audio Codec

X-Codec은 EnCodec, DAC framework를 기반으로 acoustic encoder, quantizer, acoustic decoder로 구성됨
- Waveform sample 수를 $n$이라고 하면, codec input은 $\mathbf{X}\in \mathbb{R}^{n}$과 같음
  1. 해당 waveform은 acoustic encoder에 input 되어 frame-level latent acoustic feature $\mathbf{A}\in\mathbb{R}^{H_{a}\times T}$를 추출함
    - $H_{a}$ : acoustic feature의 hidden size, $T$ : frame 수
  2. 이후 continuous feature는 $M$ quantizer layer를 가진 Residual Vector Quantization (RVQ)를 사용하여 discrete token $\mathbf{Q}\in\mathbb{R}^{M\times T}$로 transform 됨
    - 이때 quantizer의 specific codebook이 학습되므로, discrete token을 continuous feature $\mathbf{A}_{q}\in\mathbb{R}^{H_{a}\times T}$로 다시 transform 할 수 있음
  3. Acoustic decoder는 temporal upsampling을 사용하여 $\mathbf{A}_{q}$로부터 waveform $\hat{\mathbf{X}}$를 reconstruct 함
- Training process는 mel-loss, STFT loss, GAN loss 등을 통해 supervise 됨

- Analysing Semantic Shortcoming

Text-to-Speech (TTS)에 language modeling을 접목한 VALL-E를 통해 acoustic codec을 분석해 보면
- 아래 표와 같이 VALL-E를 EnCodec을 통해 training 하는 경우, 높은 WER과 content generation 측면에서 frequent inaccuracy가 나타남
  - 즉, EnCodec은 inadequate semantic processing capability로 인해 phoneme을 differentiate 하지 못함
- 이를 해결하기 위해서는 codec architecture에 comprehensive semantic feature를 integrate 하여 language model의 interpreting load를 alleviate 해야 함

- Designing Auxiliary Semantic Module

X-Codec은 semantic, acoustic feature를 directly concatenate 하여 audio codec을 개선함
- 먼저 audio waveform $\mathbf{X}$에 HuBERT, Wav2Vec 2.0과 같은 self-supervised model을 적용하여 semantic feature vector $\mathbf{S}^{*}\in\mathbb{R}^{H_{s}\times T}$를 추출함
  1. 추출된 feature는 semantic encoder를 통해 process 되어 refined semantic feature vector $\mathbf{S}$를 yield 하고, acoustic branch는 feature $\mathbf{A}$를 produce 함
  2. 해당 output $\mathbf{S},\mathbf{A}$는 linear projection $\phi$를 통해 concatenate 됨:
    (Eq. 1) $\mathbf{U}=\text{concat}\left(\phi_{s}(\mathbf{S}),\phi_{a}(\mathbf{A}) \right)$
    - $\mathbf{U}\in\mathbb{R}^{H_{u}\times T}$ : concatenated feature로써, semantic/acoustic source의 information preservation을 maximize 하는 것을 목표로 함
  3. Combined feature는 $M$-layer quantizer를 사용하는 RVQ로 전달되어 sematic, acoustic-rich token을 생성함
- Quantized feature $\mathbf{U}_{q}$는 decoder가 original semantic feature $\hat{\mathbf{S}}^{*}$과 audio waveform $\hat{\mathbf{X}}$를 reconstruct 할 수 있도록 2개의 projector $\beta_{s},\beta_{a}$를 사용함
  - 이때 논문은 semantic reconstruction을 위해 Mean Squared Error (MSE) loss를 도입하고, constant weight $\gamma$를 적용하여 training objective를 balance 함

3. Experiments

- Settings

Dataset : LibriSpeech, MLS
Comparisons : EnCodec, DAC, SpeechTokenizer

- Results

Phonetic discriminability 측면에서 X-Codec은 우수한 성능을 보임

Reconstruction 측면에서도 높은 MOS를 달성함

Music and Sound Generation
- Music continuation task에서 X-Codec은 기존보다 우수한 성능을 달성함

X-Codec은 Text-to-Sound task에서도 뛰어난 성능을 보임

다양한 benchmark에 대해 X-Codec은 우수한 semantic understanding ability를 보임

'Paper > Neural Codec' 카테고리의 다른 글

[Paper 리뷰] SPCodec: Split and Prediction for Neural Speech Codec (0)	2025.08.29
[Paper 리뷰] TS3-Codec: Transformer-based Simple Streaming Single Codec (0)	2025.08.22
[Paper 리뷰] DS-Codec: Dual-Stage Training with Mirror-to-NonMirror Architecture Switching for Speech Codec (0)	2025.07.21
[Paper 리뷰] LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec (0)	2025.07.11
[Paper 리뷰] DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation (0)	2025.07.05

최근에 올라온 글

최근에 달린 댓글

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

1. Introduction

2. Method

- Acoustic Audio Codec

- Analysing Semantic Shortcoming

- Designing Auxiliary Semantic Module

3. Experiments

- Settings

- Results

'Paper > Neural Codec' 카테고리의 다른 글

티스토리툴바