티스토리 뷰

반응형

Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding


  • Speech codec은 acoustic fidelity와 semantic preservation 간의 inherent confilct가 존재함
  • SimWhisper-Codec
    • Semantically-capable model을 high-fidelity acoustic reconstruction에 대해 adapt
    • 특히 frozen, simplified Whisper encoder를 활용하여 external supervision 없이 semantic, acoustic preservation을 balancing
  • 논문 (ICASSP 2026) : Paper Link

1. Introduction

  • Speech codec은 semantic content preservation과 acoustic fidelity 간의 inherent conflict가 존재하고, 특히 low-bitrate에서는 해당 trade-off를 만족하기 어려움
    • 이를 위해 기존 model은 external semantic supervision을 사용하여 acoustic-centric codec을 augment 함
      1. 대표적으로 SpeechTokenizerHuBERT에 대한 semantic distillation을 활용해 first Residual Vector Quantization (RVQ) layer를 guide 함
      2. PAST는 phoneme classification, Automatic Speech Recognition (ASR)과 같은 auxiliary phonetic task를 incorporate 함
    • BUT, 해당 방식들은 대부분 complex semantic supervision에 의존적이라는 한계점이 있음

-> 그래서 semantic supervision 대신 text-aligned ASR model을 acoustic reconstruction에 adapt 하는 SimWhisper-Codec을 제안

 

  • SimWhisper-Codec
    • Whisper를 기반으로 architectural component의 acoustic reconstruction capability를 분석
    • Convolutional front-end nonlinearity와 absolute positional encoding을 remove 한 simplified Whisper encoder를 활용하여 fine-grained acoustic information preserving ability를 개선

< Overall of SimWhisper-Codec >

  • Simplified Whisper encoder를 활용한 semantic model-based speech codec
  • 결과적으로 기존보다 우수한 성능을 달성

2. Empirical Analysis of Components Hindering Acoustic Reconstruction

  • 논문은 multilingual Whisper encoder에서 acoustic reconstruction capability에 영향을 주는 architectural component에 대한 empirical analysis를 수행함

- Component Analysis and Hypothesis

  • Convolutional Front-End Nonlinearity
    • Whisper encoder의 front-end는 GELU activation을 가진 2개의 convolutional layer로 구성됨
      - 해당 nonlinearity는 acoustic reconstruction을 위한 spectral detail을 suppress 할 수 있음
    • 즉, 해당 activation을 remove 하면 convolutional layer는 input signal을 preserve 하고 acoustic detail을 retain 할 수 있는 purely linear transformation으로 동작할 수 있음
  • Absolute Positional Encodings
    • Absolute positional encoding은 각 sequence의 temporal position에 fix 된 identity marker로 사용됨
    • 이때 논문은 해당 positional encoding이 acoustic reconstruction에 detrimental 하다고 가정함 
      1. Acoustic feature는 position-invariant 해야 하기 때문
        - e.g., phoneme $\texttt{/a/}$는 temporal location에 관계없이 identical representation을 가져야 함
      2. Speech는 repetitive structure를 가지고 있으므로 absolute encoding은 reconstruction을 위한 pattern recognition을 hindering 할 수 있음

Reconstruction Quality

- Validation Analysis

  • 앞선 hypothesis를 validate 하기 위해 LJSpeech를 사용하여 controlled analysis를 수행함
    • 이를 위해 각 Whisper encoder variant의 final layer에서 frame-level hidden state를 추출한 다음, HiFi-GAN vocoder를 conditioning 하여 reconstruction quality를 assess 함
      - 모든 encoder variant는 HiFi-GAN training 동안 frozen 되고 feature extractor로 사용됨
    • Convolutional front-end와 nonlinearity를 remove 하면 PESQ-NB가 1.24에서 3.60, STOI는 0.82에서 0.86으로 향상됨
      1. Absolute positional encoding을 remove 하는 경우에도 PESQ-NB, STOI가 향상됨
      2. 특히 두 component 모두를 remove 하면 최고의 성능 향상을 얻을 수 있음
        - Nonlinearity는 spectral detail을 suppress 하고 positional encoding은 flexible attention pattern을 interfere 하기 때문
    • 추가적으로 middle Transformer layer의 self-attention pattern을 확인해 보면, absolute positional encoding을 remove 하는 경우 self-attention pattern에서 diagonal dominance가 reduce 되어 sequence 전체에 spread 됨
    • 결과적으로 두 component를 simultaneously remove 하면 optimal reconstruction이 가능함
      - 따라서 논문은 해당 simplified Whisper encoder를 frozen feature extractor로 채택함

Self-Attention Map

3. Method

- SimWhisper-Codec

  • 논문은 Whisper의 inherent semantic capability를 high-quality acoustic reconstruction에 adapt 함
    • 이때 Whisper의 extensive multilingual training과 text alignment가 natural semantic grounding을 제공하므로 additional semantic model은 필요하지 않음
      - 대신 ASR invariance를 위한 architectural component가 fine-grained acoustic preservation을 hinder 함
    • 따라서 SimWhisper-Codec은 FSQ quantization과 symmetric trainable decoder를 pair 한 frozen simplified Whisper encoder를 도입함

Overview

- Model Architecture

  • SimWhisper-Codec은 simplified Whisper encoder, downsampling module, quantizer, upsampling module, symmetric decoder로 구성됨
    1. Encoder
      • Encoder는 pre-trained weight로 initialize 된 Whisper architecture를 사용함
      • 이때 acoustic preservation을 위해 2가지 modification을 적용함:
        - Initial 2 convolutional layer에서 GELU nonlinearity를 remove 하되, layer structure와 learned weight는 preserve 하여 pre-trained Whisper model과의 compatibility를 maintain 함
        - Transformer block에서 absolute positional encoding을 completely remove 함
      • 해당 simplified encoder는 codec training 시 freeze 되어 powerful feature extractor로 사용됨
    2. Downsampler
      • Downsampler는 consecutive frame을 stack 하고 temporal information을 aggregate 하여 temporal resolution을 reduce 함
      • 이후 dilated convolution과 Snake activation을 포함한 residual block을 통해 multi-scale temporal context를 capture 하고 feature dimensionality를 compress 함
    3. Quantizer
      • Finite Scalar Quantization (FSQ) module를 활용하여 codebook collapse를 mitigate 하고 exponential moving average, commitment loss와 같은 complex training을 obviate 함
    4. Upsampler
      • Upsampler는 dilated conolution, Snake activation을 사용한 residual block을 통해 feature를 reconstruct 함
      • 이후 channel dimension을 expand 하고 feature를 unstack 하여 original temporal resolution, dimensionality를 restore 함
    5. Decoder
      • Decoder는 encoder와 symmetric 한 architecture를 활용함
        - Encoder의 convolutional layer는 transposed convolution으로 replace 하고 동일한 architectural depth와 feature dimension을 maintain 함
      • 최종적으로는 Vocos를 사용해 spectral feature를 final audio waveform으로 convert 함

- Training Objective

  • SimWhisper-Codec은 single-stage GAN-based approach를 사용하여 training 됨
    • 먼저 generator는 다음의 composite loss function을 minimize 함:
      (Eq. 1) $\mathcal{L}_{G}=\lambda_{recon}\mathcal{L}_{recon}+\lambda_{adv}\mathcal{L}_{adv}+\lambda_{feat}\mathcal{L}_{feat}$
      - $\lambda_{recon}, \lambda_{adv}, \lambda_{feat}$ : weight
    • Multi-Scale Reconstruction Loss $\mathcal{L}_{recon}$
      1. 논문은 original, reconstructed audio의 mel-spectrogram에 대해 7개의 STFT scale에 대한 $L1$ loss를 compute 함
      2. 각 scale $k\in\{5,...,11\}$에 대해, 해당 loss는:
        (Eq. 2) $ \mathcal{L}_{recon}=\sum_{k}||M_{k}(x)-M_{k}(\hat{x})||_{1}$
        - $M_{k}(\cdot)$ : FFT size $2^{k}$로 compute 된 mel-spectrogram
        - $x$ : original audio, $\hat{x}$ : reconstructed audio
    • Adversarial Loss $\mathcal{L}_{adv}$
      1. 논문은 perceptual quality를 위해 Least Square GAN objective를 채택함
      2. 이때 discriminator loss는:
        (Eq. 3) $\mathcal{L}_{D}=\frac{1}{N}\sum_{i=1}^{N}\left[\left(D_{i}(x)-1\right)^{2}+D_{i}\left(G(z)\right)^{2}\right]$
        - $D_{i}$ : $i$-th discriminator output, $N$ : discriminator 수, $G(z)$ : generated audio
      3. 그러면 generator adversarial loss는:
        (Eq. 4) $\mathcal{L}_{adv}=\frac{1}{N}\sum_{i=1}^{N}\left(D_{i}(G(z))-1\right)^{2}$
    • Feature Matching Loss $\mathcal{L}_{feat}$
      1. Real, generated audio에 대한 discriminator의 feature map 간 $L1$ loss를 통해 quality를 향상할 수 있음
      2. Feature matching loss는:
        (Eq. 5) $\mathcal{L}_{feat}=\frac{1}{N\cdot K}\sum_{i=1}^{N}\sum_{j=1}^{K}\frac{\left|\left| D_{i}^{j}(x)-D_{i}^{j}\left(G(z)\right)\right|\right|_{1}}{\left|\left| D_{i}^{j}(x)\right|\right|_{1}}$
        - $D_{i}^{j}(\cdot)$ : $i$-th discriminator의 $j$-th layer feature map, $K$ : feature layer 수, $\epsilon$ : numerical stability를 위한 small constant

4. Experiments

- Settings

- Results

  • 전체적으로 SimWhisper-Codec의 성능이 가장 우수함

Model 성능 비교

  • Ablation Study
    • 각 component는 성능 향상에 유효함

Ablation Study

  • Preservation of Acoustic Attributes
    • Simplified Whisper는 모든 layer에 대해 stable $F_{0}$ tracking을 maintain 할 수 있음

Pitch Tracking Performance

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
Total
Today
Yesterday