티스토리 뷰

반응형

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model


  • 기존 audio codec은 audio compression을 위해 설계되어 있으므로 Large Language Model에서 최적의 성능을 발휘하기 어려움
  • X-Codec
    • Residual Vector Quantization 이전에 pre-trained semantic encoder를 incorporate
    • Residual Vector Quantization 이후에는 semantic reconstruction loss를 적용
  • 논문 (AAAI 2025) : Paper Link

1. Introduction

  • AudioLM, VALL-E와 같이 audio generation을 위해 Large Language Model (LLM)이 자주 활용됨
    • 특히 SoundStream과 같은 audio codec은 audio LLM에서 continuous audio waveform과 token-based language model을 bridge 하기 위해 사용됨
      - 해당 codec은 high-rate audio signal을 finite token set으로 discretize 하여 LLM architecture를 지원함
    • BUT, DAC, HiFi-Codec과 같은 기존 audio codec은 low-compression rate, high-reconstruction quality를 달성하는 것을 목표로 함
      - 즉, 대부분 audio compression을 목적으로 하므로 audio language modeling과는 misalignment가 있음

-> 그래서 audio content understanding에 초점을 맞춘 audio tokenizer인 X-Codec을 제안

 

  • X-Codec
    • Semantic, acoustic feature를 integrate 한 unified tokenization framework
    • 2개의 input, 2개의 output에 기반한 X-shaped structure를 사용하여 Residual Vector Quantization (RVQ) 내에서 semantic, acoustic information을 unify

< Overall of X-Codec >

  • Semantic, acoustic information을 combine 하여 audio understanding capability를 향상한 neural codec
  • 결과적으로 audio generation task에서 기존 codec 보다 뛰어난 성능을 달성

2. Method

- Acoustic Audio Codec

  • X-Codec은 EnCodec, DAC framework를 기반으로 acoustic encoder, quantizer, acoustic decoder로 구성됨
    • Waveform sample 수를 $n$이라고 하면, codec input은 $\mathbf{X}\in \mathbb{R}^{n}$과 같음
      1. 해당 waveform은 acoustic encoder에 input 되어 frame-level latent acoustic feature $\mathbf{A}\in\mathbb{R}^{H_{a}\times T}$를 추출함
        - $H_{a}$ : acoustic feature의 hidden size, $T$ : frame 수
      2. 이후 continuous feature는 $M$ quantizer layer를 가진 Residual Vector Quantization (RVQ)를 사용하여 discrete token $\mathbf{Q}\in\mathbb{R}^{M\times T}$로 transform 됨 
        - 이때 quantizer의 specific codebook이 학습되므로, discrete token을 continuous feature $\mathbf{A}_{q}\in\mathbb{R}^{H_{a}\times T}$로 다시 transform 할 수 있음
      3. Acoustic decoder는 temporal upsampling을 사용하여 $\mathbf{A}_{q}$로부터 waveform $\hat{\mathbf{X}}$를 reconstruct 함 
    • Training process는 mel-loss, STFT loss, GAN loss 등을 통해 supervise 됨

Overview

- Analysing Semantic Shortcoming

  • Text-to-Speech (TTS)에 language modeling을 접목한 VALL-E를 통해 acoustic codec을 분석해 보면
    • 아래 표와 같이 VALL-E를 EnCodec을 통해 training 하는 경우, 높은 WER과 content generation 측면에서 frequent inaccuracy가 나타남
      - 즉, EnCodec은 inadequate semantic processing capability로 인해 phoneme을 differentiate 하지 못함
    • 이를 해결하기 위해서는 codec architecture에 comprehensive semantic feature를 integrate 하여 language model의 interpreting load를 alleviate 해야 함

Zero-Shot TTS

- Designing Auxiliary Semantic Module

  • X-Codec은 semantic, acoustic feature를 directly concatenate 하여 audio codec을 개선함 
    • 먼저 audio waveform $\mathbf{X}$에 HuBERT, Wav2Vec 2.0과 같은 self-supervised model을 적용하여 semantic feature vector $\mathbf{S}^{*}\in\mathbb{R}^{H_{s}\times T}$를 추출함
      1. 추출된 feature는 semantic encoder를 통해 process 되어 refined semantic feature vector $\mathbf{S}$를 yield 하고, acoustic branch는 feature $\mathbf{A}$를 produce 함 
      2. 해당 output $\mathbf{S},\mathbf{A}$는 linear projection $\phi$를 통해 concatenate 됨:
        (Eq. 1) $\mathbf{U}=\text{concat}\left(\phi_{s}(\mathbf{S}),\phi_{a}(\mathbf{A}) \right)$

        - $\mathbf{U}\in\mathbb{R}^{H_{u}\times T}$ : concatenated feature로써, semantic/acoustic source의 information preservation을 maximize 하는 것을 목표로 함
      3. Combined feature는 $M$-layer quantizer를 사용하는 RVQ로 전달되어 sematic, acoustic-rich token을 생성함 
    • Quantized feature $\mathbf{U}_{q}$는 decoder가 original semantic feature $\hat{\mathbf{S}}^{*}$과 audio waveform $\hat{\mathbf{X}}$를 reconstruct 할 수 있도록 2개의 projector $\beta_{s},\beta_{a}$를 사용함
      - 이때 논문은 semantic reconstruction을 위해 Mean Squared Error (MSE) loss를 도입하고, constant weight $\gamma$를 적용하여 training objective를 balance 함

3. Experiments

- Settings

- Results

  • Phonetic discriminability 측면에서 X-Codec은 우수한 성능을 보임

Phonetic Discriminability

  • Reconstruction 측면에서도 높은 MOS를 달성함

Reconstruction 성능

  • Music and Sound Generation
    • Music continuation task에서 X-Codec은 기존보다 우수한 성능을 달성함

Music Continuation

  • X-Codec은 Text-to-Sound task에서도 뛰어난 성능을 보임

Text-to-Sound

  • 다양한 benchmark에 대해 X-Codec은 우수한 semantic understanding ability를 보임

Semantic Representation 성능 비교

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Total
Today
Yesterday