티스토리 뷰
Paper/Neural Codec
[Paper 리뷰] IBPCodec: A Low-Bitrate Lightweight Speech Codec with Inter-Band Prediction
feVeRin 2026. 5. 13. 13:04반응형
IBPCodec: A Low-Bitrate Lightweight Speech Codec with Inter-Band Prediction
- Neural codec은 high computational complexity로 인한 한계가 있음
- IBPCodec
- Inter-Band Prediction을 활용하여 low-frequency information을 modeling
- Decoding 시에는 high-/low-frequency band 간의 correlation을 활용하여 full speech reconstruction을 지원
- 논문 (ICASSP 2026) : Paper Link
1. Introduction
- Speech codec은 continuous waveform을 discrete representation으로 compress 함
- 특히 SoundStream, EnCodec, DAC와 같은 neural codec은 encoder-decoder architecture와 vector quantization을 활용하여 discrete sequence를 생성함
- BUT, 대부분의 neural codec은 high computational complexity를 가짐
- 이로 인해 edge device나 downstream task에 적용하는데 한계가 있음
-> 그래서 neural codec의 complexity를 개선한 IBPCodec을 제안
- IBPCodec
- Low-frequency component에 대한 feature extraction과 quantization을 수행
- Quantized feature decoding 시에는 Inter-Band Prediction Module을 사용하여 low-frequency component로부터 high-frequency component를 predict
< Overall of IBPCodec >
- Inter-Band Prediction을 활용한 lightweight, low-bitrate neural codec
- 결과적으로 기존보다 우수한 성능을 달성
2. Method
- Overview
- Low-frequency component는 subjective/objective evaluation에서 dominate 하므로, 논문은 low-frequency spectral component를 preserve 하는 것을 목표로 함
- 구조적으로 IBPCodec은 encoder-quantizer-decoder architecture를 따름
- Input signal $x\in\mathbb{R}^{1\times T}$는 STFT를 통해 time-frequency spectrum $f\in\mathbb{R}^{F\times N}$으로 convert 됨
- $T$ : time-domain sample 수, $N$ : temporal frame 수, $F$ : frequency bin 수 - 이후 low-frequency clipping을 적용한 amplitude, real, imagninary part $f_{low}\in\mathbb{R}^{3\times F'\times N}$를 network input으로 사용함
- $F'$ : low-frequency bin - Total bandwidth에서 low-frequency band proportion은 $P=\frac{F'}{F}$와 같음
- Input signal $x\in\mathbb{R}^{1\times T}$는 STFT를 통해 time-frequency spectrum $f\in\mathbb{R}^{F\times N}$으로 convert 됨
- Encoder는 low-frequency input component $f_{low}$에서 latent feature $z$를 추출하고 quantizer를 통해 discrete latent representation $z_{q}$를 얻음
- 이후 decoder는 quantized latent representation으로부터 low-frequency component를 recover 함 - Decode 된 low-frequency component $f'_{low}$에 대해, Inter-Band Prediction Module (IBPM)을 사용하여 low frequency band에서 high frequency를 predict 함:
(Eq. 1) $ f'_{high}=\text{IBPM}(f'_{low})$ - $f'_{low},f'_{high}$를 complete spectrum $f'$으로 concatenate 하고 iSTFT를 통해 complete speech signal $x'$을 얻음:
(Eq. 2) $x'=\text{iSTFT}(\text{concat}(f'_{low},f'_{high}))$
- 구조적으로 IBPCodec은 encoder-quantizer-decoder architecture를 따름

- Encoder and Decoder
- Encoder는 ConvEncoder와 Temporal Aggregation Module (TAM)으로 구성됨
- ConvEncoder는 stacked Encoder block으로 구성됨
- 각 block은 channel 수 $C$, kernel size $(k,1)$, stride $(s,1)$을 가진 2D downsampling convolution과 channel 수 $C$, kernel size $(1,1)$, stride $(1,1)$의 2D convolution으로 구성됨
- 각 convolution과 Encoder block은 ReLU activation으로 connect 됨
- Time domain에서 downsampling stride와 kernel size가 $1$로 설정되어 있으므로, ConvEncoder의 모든 feature extraction은 각 frame 내에서 수행되고 inter-frame correlation은 고려하지 않음
- 이를 해결하기 위해 논문은 quantizer의 각 side에 TAM을 추가하고, 구조적으로는 FocalCodec을 따라 FocalBlock의 causal variant를 채택함
- FocalBlock은 서로 다른 size의 depth convolution을 사용하여 dependency를 capture 하고, gated aggregation을 통해 multiple granularity의 contextual feature를 single feature vector로 condense 함
- Decoder는 Encoder의 mirror로써 downsampling convolution을 upsampling convolution으로 replace 함
- ConvEncoder는 stacked Encoder block으로 구성됨
- Inter-Band Prediction Module
- 논문은 Inter-Band Prediction Module (IBPM)을 codec에 directly embed 함
- IBPM은 high-/low-frequency 간의 correlation을 활용하여 low-frequency component를 통해 high-frequency component를 predict 함
- 먼저 temporal resolution을 preserve 하기 위해 input tensor의 channel, frequency dimension을 merge 함
- 이후 3 layer의 pointwise 1D convolution을 사용하여 temporal dimension을 preserve 하면서 low frequency에서 high frequency로 dimension을 project 함
- 각 1D convolution은 PReLU activation을 가짐 - 최종적으로 reshape operation을 통해 original tensor layout을 restore 함
- 이후 3 layer의 pointwise 1D convolution을 사용하여 temporal dimension을 preserve 하면서 low frequency에서 high frequency로 dimension을 project 함
- Quantizer and Discriminator
- 논문은 HiFi-Codec을 따라 GRVQ를 quantizer로 채택함
- 이때 group 수 $G=2$로 설정하고 GRVQ layer 수를 통해 bitrate를 modify 할 수 있음
- Discriminator는 EnCodec을 따라 Multi-Scale STFT (MS-STFT) discriminator를 사용함
- Loss Function
- Reconstruction loss $\mathcal{L}_{rec}$, adversarial loss $\mathcal{L}_{adv}$, feature matching loss $\mathcal{L}_{feat}$, commitment loss $\mathcal{L}_{cmt}$에 대해
- IBPCodec의 loss function은:
(Eq. 3) $\mathcal{L}=\lambda_{rec}\mathcal{L}_{rec}+\lambda_{adv}\mathcal{L}_{adv}+\lambda_{feat}\mathcal{L}_{feat}+\lambda_{cmt}\mathcal{L}_{cmt}$
- $\lambda_{rec},\lambda_{adv},\lambda_{feat},\lambda_{cmt}$ : weight coefficient - 이때 reconstruction loss $\mathcal{L}_{rec}$는:
(Eq. 4) $\mathcal{L}_{rec}=\lambda_{wav}\mathcal{L}_{wav}+\lambda_{mel}\mathcal{L}_{mel}$
- $\lambda_{wav},\lambda_{mel}$ : weight coefficient, $\mathcal{L}_{wav}$ : waveform loss, $\mathcal{L}_{mel}$ : mel-spectrogram loss
- IBPCodec의 loss function은:
3. Experiments
- Settings
- Dataset : VCTK
- Comparisons : DAC, SpeechTokenizer, FunCodec
- Results
- 전체적으로 IBPCodec의 성능이 가장 우수함

- Subjective evaluation 측면에서도 우수한 성능을 보임

- Low-band proportion $P=0.75$ 일 때 최적의 성능을 달성함

- Ablation Study
- 각 component는 성능 향상에 유효함

반응형
'Paper > Neural Codec' 카테고리의 다른 글
댓글
