티스토리 뷰

반응형

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation


  • Neural audio codec은 non-streamable 하므로 real-time application에서 사용하기 어려움
  • FocalCodec-Stream
    • Focal modulation에 기반한 hybrid codec을 활용하여 speech를 single binary codebook으로 compress
    • 특히 multi-stage causal distillation과 lightweight refiner module을 도입
  • 논문 (ICASSP 2026) : Paper Link

1. Introduction

  • AudioLM, MuiscGen, AudioGen과 같은 Speech Language Model (SLM)은 Neural Audio Codec (NAC)의 discrete audio token을 활용하여 modeling 됨
    • 특히 SpeechTokenizer, TAAE와 같은 hybrid codec은 acoustic token을 enrich 할 수 있음
    • BUT, 대부분의 NAC는 long future context window에 의존하므로 streamability의 한계가 있음
      - 즉, semantic, acoustic representation을 unify 하고 high reconstruction을 보장하는 low-bitrate, single-codebook codec이 필요함

-> 그래서 NAC에서 streamability를 달성한 FocalCodec-Stream을 제안

 

  • FocalCodec-Stream
    • Focal modulation에 기반한 hybrid codec을 활용해 low-bitrate single binary codebook으로 compress
    • WavLMmulti-stage causal distillation strategy과 lightweight refiner module을 채택

< Overall of FocalCodec-Stream >

  • Focal modulation과 multi-stage causal distillation을 활용한 streamable hybrid codec
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

- Codec Architecture

  • FocalCodec-Stream은 FocalCodec architecture를 기반으로 low-latency streaming inference를 지원함
    • 먼저 Encoder는 WavLM-large의 first 6 layer에서 standard convolution을 causal convolution으로, full-context gated relative attention을 sliding window gated relative chunked attention으로 replace 하여 구성됨
      - 해당 sliding window attention은 infinite streaming을 위해 old context를 discard 하고 chunking 시에는 3-frame look ahead를 활용함
    • Focal modulation을 위한 Compressor와 Decompressor는 depth-wise convolution, position-wise feed-forward layer, non-linearity, global pooling으로 구성됨
      - 이때 streaming을 위해 standard convolution을 causal convolution으로, global pooling을 large-kernel causal convolution으로 replace 함
    • Binary Spherical Quantizer는 각 latent에 대해 independently operate 하고 Vocos Decoder는 ConvNeXt block을 causal convolution으로, iSTFT를 linear projection으로 replace 하여 구성됨
      - Upsampling factor $K$에 대해 각 hidden state는 $K$ entry로 project 되고 이후 flatten 되어 waveform을 reconstruct 함
    • 추가적으로 논문은 Decompressor 다음에 lightweight Refiner module을 도입함
      1. Refiner module은 residual chunk-wise feed-forward layer로 구성되고 available latency 내에서 WavLM feature와 better align 되도록 함
      2. 먼저 sequence length $N$, hidden size $D$에 대해 $x\in\mathbb{R}^{N\times D}$라고 하면, size $C$의 chunk $x_{c}\in\mathbb{R}^{N/C\times CD}$로 reshape 할 수 있음
      3. 그러면 각 chunk vector $x_{c}$에 대해:
        (Eq. 1) $ \hat{x}_{c}=x_{c}+W_{out}\text{GELU}(W_{in}x_{c}+b_{in})+b_{out}$
        - $W_{in}, W_{out}\in\mathbb{R}^{CD\times CD}$, $b_{in},b_{out}\in \mathbb{R}^{CD}$
      4. 최종적으로 $\hat{x}_{c}$를 original shape $\hat{x}\in \mathbb{R}^{N\times D}$로 unflatten 하여 사용함

Overview

- Causal Distillation

  • FocalCodec의 streaming을 위해서는 full-context WavLM encoder를 streamable 하게 구성해야 함
    • 이를 위해 original full-context WavLM encoder를 teacher로 사용하는 multi-stage distillation framework를 도입함
    • Stage 1
      1. 먼저 streaming constraint 하에서 FocalCodec의 architectural module의 contribution을 assess 함
        - Learned positional embedding, full-context gated relative attention을 critical component인 반면, convolutional feature extractor는 minor role에 해당함
      2. 특히 positional embedding은 128 feature frame의 receptive field를 가지는 convolution에 의존하므로 80ms latency budget을 exceed 하여 initial delay를 발생시킴
        - 따라서 논문은 positional embedding의 causal variant가 full-context를 approximate 하도록 하여 training data에서 $L2$ loss를 minimize 하는 방식으로 positional embedding을 causally distill 함
    • Stage 2
      1. Positional embedding distillation 이후에는 attention과 convolutional feature extractor를 distill 함
        - 해당 component는 causal form으로 convert 된 다음, full-context teacher model로부터 distill 됨
      2. 해당 process를 guide 하기 위해 6 layer 각각에서 causal, teacher embedding 간의 $L2$ loss를 minimize 하고 reversed linear schedule을 적용해 loss를 weight 함
        - 이를 통해 earlier layer는 adaptation freedom을 가지면서 deeper layer에서는 representational strength를 preserve 할 수 있음
    • Stage 3
      1. WavLM encoder가 distill 되면 causal compressor-quantizer-decompressor system을 training 함
        - 이때 causally distilled, decompressed representation 간의 $L2$ loss를 사용함
      2. 추가적으로 original full-context WavLM representation을 사용하여 causal decoder를 training 함
    • Stage 4
      1. Full-context feature로 training 된 decoder와 causally distilled feature를 reconstruct 하도록 training 된 decompressor 간에는 distribution shift가 존재함
        - 이를 해결하기 위해 논문은 learnable refiner module을 도입함
      2. 해당 stage에서는 encoder, compressor, quantizer, decompressor, refiner를 jointly fine-tuning 하면서 teacher, refiner output 간에 $L2$ loss를 적용함

3. Experiments

- Settings

Model Settings

- Results

  • FocalCodec-Stream은 speech resynthesis, voice conversion에서 우수한 성능을 달성함

Speech Resynthesis, Voice Conversion에서의 성능

  • Discriminative downstream task에 대해서도 뛰어난 성능을 보임

Discriminative Task에서의 성능

  • Ablation Study
    • 각 component를 제거하는 경우 성능 저하가 발생함

Ablation Study

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Total
Today
Yesterday