티스토리 뷰

반응형

IBPCodec: A Low-Bitrate Lightweight Speech Codec with Inter-Band Prediction


  • Neural codec은 high computational complexity로 인한 한계가 있음
  • IBPCodec
    • Inter-Band Prediction을 활용하여 low-frequency information을 modeling
    • Decoding 시에는 high-/low-frequency band 간의 correlation을 활용하여 full speech reconstruction을 지원
  • 논문 (ICASSP 2026) : Paper Link

1. Introduction

  • Speech codec은 continuous waveform을 discrete representation으로 compress 함
    • 특히 SoundStream, EnCodec, DAC와 같은 neural codec은 encoder-decoder architecture와 vector quantization을 활용하여 discrete sequence를 생성함
    • BUT, 대부분의 neural codec은 high computational complexity를 가짐
      - 이로 인해 edge device나 downstream task에 적용하는데 한계가 있음

-> 그래서 neural codec의 complexity를 개선한 IBPCodec을 제안

 

  • IBPCodec
    • Low-frequency component에 대한 feature extraction과 quantization을 수행
    • Quantized feature decoding 시에는 Inter-Band Prediction Module을 사용하여 low-frequency component로부터 high-frequency component를 predict

< Overall of IBPCodec >

  • Inter-Band Prediction을 활용한 lightweight, low-bitrate neural codec
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

- Overview

  • Low-frequency component는 subjective/objective evaluation에서 dominate 하므로, 논문은 low-frequency spectral component를 preserve 하는 것을 목표로 함
    • 구조적으로 IBPCodec은 encoder-quantizer-decoder architecture를 따름
      1. Input signal $x\in\mathbb{R}^{1\times T}$는 STFT를 통해 time-frequency spectrum $f\in\mathbb{R}^{F\times N}$으로 convert 됨
        - $T$ : time-domain sample 수, $N$ : temporal frame 수, $F$ : frequency bin 수
      2. 이후 low-frequency clipping을 적용한 amplitude, real, imagninary part $f_{low}\in\mathbb{R}^{3\times F'\times N}$를 network input으로 사용함
        - $F'$ : low-frequency bin
      3. Total bandwidth에서 low-frequency band proportion은 $P=\frac{F'}{F}$와 같음
    • Encoder는 low-frequency input component $f_{low}$에서 latent feature $z$를 추출하고 quantizer를 통해 discrete latent representation $z_{q}$를 얻음
      - 이후 decoder는 quantized latent representation으로부터 low-frequency component를 recover 함
    • Decode 된 low-frequency component $f'_{low}$에 대해, Inter-Band Prediction Module (IBPM)을 사용하여 low frequency band에서 high frequency를 predict 함:
      (Eq. 1) $ f'_{high}=\text{IBPM}(f'_{low})$
    • $f'_{low},f'_{high}$를 complete spectrum $f'$으로 concatenate 하고 iSTFT를 통해 complete speech signal $x'$을 얻음:
      (Eq. 2) $x'=\text{iSTFT}(\text{concat}(f'_{low},f'_{high}))$

Overview

- Encoder and Decoder

  • Encoder는 ConvEncoder와 Temporal Aggregation Module (TAM)으로 구성됨
    • ConvEncoder는 stacked Encoder block으로 구성됨
      1. 각 block은 channel 수 $C$, kernel size $(k,1)$, stride $(s,1)$을 가진 2D downsampling convolution과 channel 수 $C$, kernel size $(1,1)$, stride $(1,1)$의 2D convolution으로 구성됨
      2. 각 convolution과 Encoder block은 ReLU activation으로 connect 됨
    • Time domain에서 downsampling stride와 kernel size가 $1$로 설정되어 있으므로, ConvEncoder의 모든 feature extraction은 각 frame 내에서 수행되고 inter-frame correlation은 고려하지 않음
      1. 이를 해결하기 위해 논문은 quantizer의 각 side에 TAM을 추가하고, 구조적으로는 FocalCodec을 따라 FocalBlock의 causal variant를 채택함
      2. FocalBlock은 서로 다른 size의 depth convolution을 사용하여 dependency를 capture 하고, gated aggregation을 통해 multiple granularity의 contextual feature를 single feature vector로 condense 함
    • Decoder는 Encoder의 mirror로써 downsampling convolution을 upsampling convolution으로 replace 함

- Inter-Band Prediction Module

  • 논문은 Inter-Band Prediction Module (IBPM)을 codec에 directly embed 함
    • IBPM은 high-/low-frequency 간의 correlation을 활용하여 low-frequency component를 통해 high-frequency component를 predict 함
    • 먼저 temporal resolution을 preserve 하기 위해 input tensor의 channel, frequency dimension을 merge 함
      1. 이후 3 layer의 pointwise 1D convolution을 사용하여 temporal dimension을 preserve 하면서 low frequency에서 high frequency로 dimension을 project 함
        - 각 1D convolution은 PReLU activation을 가짐
      2. 최종적으로 reshape operation을 통해 original tensor layout을 restore 함

- Quantizer and Discriminator

  • 논문은 HiFi-Codec을 따라 GRVQ를 quantizer로 채택함
    • 이때 group 수 $G=2$로 설정하고 GRVQ layer 수를 통해 bitrate를 modify 할 수 있음
    • Discriminator는 EnCodec을 따라 Multi-Scale STFT (MS-STFT) discriminator를 사용함

- Loss Function

  • Reconstruction loss $\mathcal{L}_{rec}$, adversarial loss $\mathcal{L}_{adv}$, feature matching loss $\mathcal{L}_{feat}$, commitment loss $\mathcal{L}_{cmt}$에 대해
    • IBPCodec의 loss function은:
      (Eq. 3) $\mathcal{L}=\lambda_{rec}\mathcal{L}_{rec}+\lambda_{adv}\mathcal{L}_{adv}+\lambda_{feat}\mathcal{L}_{feat}+\lambda_{cmt}\mathcal{L}_{cmt}$
      - $\lambda_{rec},\lambda_{adv},\lambda_{feat},\lambda_{cmt}$ : weight coefficient
    • 이때 reconstruction loss $\mathcal{L}_{rec}$는:
      (Eq. 4) $\mathcal{L}_{rec}=\lambda_{wav}\mathcal{L}_{wav}+\lambda_{mel}\mathcal{L}_{mel}$
      - $\lambda_{wav},\lambda_{mel}$ : weight coefficient, $\mathcal{L}_{wav}$ : waveform loss, $\mathcal{L}_{mel}$ : mel-spectrogram loss

3. Experiments

- Settings

- Results

  • 전체적으로 IBPCodec의 성능이 가장 우수함

Model 성능 비교

  • Subjective evaluation 측면에서도 우수한 성능을 보임

Subjective Evaluation

  • Low-band proportion $P=0.75$ 일 때 최적의 성능을 달성함

Low-band Proportion 별 성능

  • Ablation Study
    • 각 component는 성능 향상에 유효함

Ablation Study

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Total
Today
Yesterday