[Paper 리뷰] Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding

티스토리 뷰

Paper/Neural Codec

[Paper 리뷰] Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding

feVeRin 2026. 3. 26. 13:15

Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding

Speech codec은 acoustic fidelity와 semantic preservation 간의 inherent confilct가 존재함
SimWhisper-Codec
- Semantically-capable model을 high-fidelity acoustic reconstruction에 대해 adapt
- 특히 frozen, simplified Whisper encoder를 활용하여 external supervision 없이 semantic, acoustic preservation을 balancing
논문 (ICASSP 2026) : Paper Link

1. Introduction

Speech codec은 semantic content preservation과 acoustic fidelity 간의 inherent conflict가 존재하고, 특히 low-bitrate에서는 해당 trade-off를 만족하기 어려움
- 이를 위해 기존 model은 external semantic supervision을 사용하여 acoustic-centric codec을 augment 함
  1. 대표적으로 SpeechTokenizer는 HuBERT에 대한 semantic distillation을 활용해 first Residual Vector Quantization (RVQ) layer를 guide 함
  2. PAST는 phoneme classification, Automatic Speech Recognition (ASR)과 같은 auxiliary phonetic task를 incorporate 함
- BUT, 해당 방식들은 대부분 complex semantic supervision에 의존적이라는 한계점이 있음

-> 그래서 semantic supervision 대신 text-aligned ASR model을 acoustic reconstruction에 adapt 하는 SimWhisper-Codec을 제안

SimWhisper-Codec
- Whisper를 기반으로 architectural component의 acoustic reconstruction capability를 분석
- Convolutional front-end nonlinearity와 absolute positional encoding을 remove 한 simplified Whisper encoder를 활용하여 fine-grained acoustic information preserving ability를 개선

< Overall of SimWhisper-Codec >

Simplified Whisper encoder를 활용한 semantic model-based speech codec
결과적으로 기존보다 우수한 성능을 달성

2. Empirical Analysis of Components Hindering Acoustic Reconstruction

논문은 multilingual Whisper encoder에서 acoustic reconstruction capability에 영향을 주는 architectural component에 대한 empirical analysis를 수행함

- Component Analysis and Hypothesis

Convolutional Front-End Nonlinearity
- Whisper encoder의 front-end는 GELU activation을 가진 2개의 convolutional layer로 구성됨
  - 해당 nonlinearity는 acoustic reconstruction을 위한 spectral detail을 suppress 할 수 있음
- 즉, 해당 activation을 remove 하면 convolutional layer는 input signal을 preserve 하고 acoustic detail을 retain 할 수 있는 purely linear transformation으로 동작할 수 있음
Absolute Positional Encodings
- Absolute positional encoding은 각 sequence의 temporal position에 fix 된 identity marker로 사용됨
- 이때 논문은 해당 positional encoding이 acoustic reconstruction에 detrimental 하다고 가정함
  1. Acoustic feature는 position-invariant 해야 하기 때문
    - e.g., phoneme $\texttt{/a/}$는 temporal location에 관계없이 identical representation을 가져야 함
  2. Speech는 repetitive structure를 가지고 있으므로 absolute encoding은 reconstruction을 위한 pattern recognition을 hindering 할 수 있음

- Validation Analysis

앞선 hypothesis를 validate 하기 위해 LJSpeech를 사용하여 controlled analysis를 수행함
- 이를 위해 각 Whisper encoder variant의 final layer에서 frame-level hidden state를 추출한 다음, HiFi-GAN vocoder를 conditioning 하여 reconstruction quality를 assess 함
  - 모든 encoder variant는 HiFi-GAN training 동안 frozen 되고 feature extractor로 사용됨
- Convolutional front-end와 nonlinearity를 remove 하면 PESQ-NB가 1.24에서 3.60, STOI는 0.82에서 0.86으로 향상됨
  1. Absolute positional encoding을 remove 하는 경우에도 PESQ-NB, STOI가 향상됨
  2. 특히 두 component 모두를 remove 하면 최고의 성능 향상을 얻을 수 있음
    - Nonlinearity는 spectral detail을 suppress 하고 positional encoding은 flexible attention pattern을 interfere 하기 때문
- 추가적으로 middle Transformer layer의 self-attention pattern을 확인해 보면, absolute positional encoding을 remove 하는 경우 self-attention pattern에서 diagonal dominance가 reduce 되어 sequence 전체에 spread 됨
- 결과적으로 두 component를 simultaneously remove 하면 optimal reconstruction이 가능함
  - 따라서 논문은 해당 simplified Whisper encoder를 frozen feature extractor로 채택함

3. Method

- SimWhisper-Codec

논문은 Whisper의 inherent semantic capability를 high-quality acoustic reconstruction에 adapt 함
- 이때 Whisper의 extensive multilingual training과 text alignment가 natural semantic grounding을 제공하므로 additional semantic model은 필요하지 않음
  - 대신 ASR invariance를 위한 architectural component가 fine-grained acoustic preservation을 hinder 함
- 따라서 SimWhisper-Codec은 FSQ quantization과 symmetric trainable decoder를 pair 한 frozen simplified Whisper encoder를 도입함

- Model Architecture

SimWhisper-Codec은 simplified Whisper encoder, downsampling module, quantizer, upsampling module, symmetric decoder로 구성됨
1. Encoder
  - Encoder는 pre-trained weight로 initialize 된 Whisper architecture를 사용함
  - 이때 acoustic preservation을 위해 2가지 modification을 적용함:
    - Initial 2 convolutional layer에서 GELU nonlinearity를 remove 하되, layer structure와 learned weight는 preserve 하여 pre-trained Whisper model과의 compatibility를 maintain 함
    - Transformer block에서 absolute positional encoding을 completely remove 함
  - 해당 simplified encoder는 codec training 시 freeze 되어 powerful feature extractor로 사용됨
2. Downsampler
  - Downsampler는 consecutive frame을 stack 하고 temporal information을 aggregate 하여 temporal resolution을 reduce 함
  - 이후 dilated convolution과 Snake activation을 포함한 residual block을 통해 multi-scale temporal context를 capture 하고 feature dimensionality를 compress 함
3. Quantizer
  - Finite Scalar Quantization (FSQ) module를 활용하여 codebook collapse를 mitigate 하고 exponential moving average, commitment loss와 같은 complex training을 obviate 함
4. Upsampler
  - Upsampler는 dilated conolution, Snake activation을 사용한 residual block을 통해 feature를 reconstruct 함
  - 이후 channel dimension을 expand 하고 feature를 unstack 하여 original temporal resolution, dimensionality를 restore 함
5. Decoder
  - Decoder는 encoder와 symmetric 한 architecture를 활용함
    - Encoder의 convolutional layer는 transposed convolution으로 replace 하고 동일한 architectural depth와 feature dimension을 maintain 함
  - 최종적으로는 Vocos를 사용해 spectral feature를 final audio waveform으로 convert 함

- Training Objective

SimWhisper-Codec은 single-stage GAN-based approach를 사용하여 training 됨
- 먼저 generator는 다음의 composite loss function을 minimize 함:
  (Eq. 1) $\mathcal{L}_{G}=\lambda_{recon}\mathcal{L}_{recon}+\lambda_{adv}\mathcal{L}_{adv}+\lambda_{feat}\mathcal{L}_{feat}$
  - $\lambda_{recon}, \lambda_{adv}, \lambda_{feat}$ : weight
- Multi-Scale Reconstruction Loss $\mathcal{L}_{recon}$
  1. 논문은 original, reconstructed audio의 mel-spectrogram에 대해 7개의 STFT scale에 대한 $L1$ loss를 compute 함
  2. 각 scale $k\in\{5,...,11\}$에 대해, 해당 loss는:
    (Eq. 2) $ \mathcal{L}_{recon}=\sum_{k}||M_{k}(x)-M_{k}(\hat{x})||_{1}$
    - $M_{k}(\cdot)$ : FFT size $2^{k}$로 compute 된 mel-spectrogram
    - $x$ : original audio, $\hat{x}$ : reconstructed audio
- Adversarial Loss $\mathcal{L}_{adv}$
  1. 논문은 perceptual quality를 위해 Least Square GAN objective를 채택함
  2. 이때 discriminator loss는:
    (Eq. 3) $\mathcal{L}_{D}=\frac{1}{N}\sum_{i=1}^{N}\left[\left(D_{i}(x)-1\right)^{2}+D_{i}\left(G(z)\right)^{2}\right]$
    - $D_{i}$ : $i$-th discriminator output, $N$ : discriminator 수, $G(z)$ : generated audio
  3. 그러면 generator adversarial loss는:
    (Eq. 4) $\mathcal{L}_{adv}=\frac{1}{N}\sum_{i=1}^{N}\left(D_{i}(G(z))-1\right)^{2}$
- Feature Matching Loss $\mathcal{L}_{feat}$
  1. Real, generated audio에 대한 discriminator의 feature map 간 $L1$ loss를 통해 quality를 향상할 수 있음
  2. Feature matching loss는:
    (Eq. 5) $\mathcal{L}_{feat}=\frac{1}{N\cdot K}\sum_{i=1}^{N}\sum_{j=1}^{K}\frac{\left|\left| D_{i}^{j}(x)-D_{i}^{j}\left(G(z)\right)\right|\right|_{1}}{\left|\left| D_{i}^{j}(x)\right|\right|_{1}}$
    - $D_{i}^{j}(\cdot)$ : $i$-th discriminator의 $j$-th layer feature map, $K$ : feature layer 수, $\epsilon$ : numerical stability를 위한 small constant

4. Experiments

- Settings

Dataset : LibriSpeech
Comparisons : EnCodec, DAC, SpeechTokenizer, BigCodec, Mimi, XY-Tokenizer

- Results

전체적으로 SimWhisper-Codec의 성능이 가장 우수함

Ablation Study
- 각 component는 성능 향상에 유효함

Preservation of Acoustic Attributes
- Simplified Whisper는 모든 layer에 대해 stable $F_{0}$ tracking을 maintain 할 수 있음

'Paper > Neural Codec' 카테고리의 다른 글

[Paper 리뷰] SACodec: Asymmetric Quantization with Semantic Anchoring for Low-Bitrate High-Fidelity Neural Speech Codecs (0)	2026.04.01
[Paper 리뷰] SUNAC: Source-Aware Unified Neural Audio Codec (0)	2026.03.24
[Paper 리뷰] CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate (0)	2026.03.19
[Paper 리뷰] SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding (0)	2026.03.10
[Paper 리뷰] FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation (0)	2026.03.03

최근에 올라온 글

최근에 달린 댓글

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding

Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding

1. Introduction

2. Empirical Analysis of Components Hindering Acoustic Reconstruction

- Component Analysis and Hypothesis

- Validation Analysis

3. Method

- SimWhisper-Codec

- Model Architecture

- Training Objective

4. Experiments

- Settings

- Results

'Paper > Neural Codec' 카테고리의 다른 글

티스토리툴바