티스토리 뷰
Paper/Neural Codec
[Paper 리뷰] Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding
feVeRin 2026. 3. 26. 13:15반응형
Speaking Clearly: A Simplified Whisper-based Codec for Low-Bitrate Speech Coding
- Speech codec은 acoustic fidelity와 semantic preservation 간의 inherent confilct가 존재함
- SimWhisper-Codec
- Semantically-capable model을 high-fidelity acoustic reconstruction에 대해 adapt
- 특히 frozen, simplified Whisper encoder를 활용하여 external supervision 없이 semantic, acoustic preservation을 balancing
- 논문 (ICASSP 2026) : Paper Link
1. Introduction
- Speech codec은 semantic content preservation과 acoustic fidelity 간의 inherent conflict가 존재하고, 특히 low-bitrate에서는 해당 trade-off를 만족하기 어려움
- 이를 위해 기존 model은 external semantic supervision을 사용하여 acoustic-centric codec을 augment 함
- 대표적으로 SpeechTokenizer는 HuBERT에 대한 semantic distillation을 활용해 first Residual Vector Quantization (RVQ) layer를 guide 함
- PAST는 phoneme classification, Automatic Speech Recognition (ASR)과 같은 auxiliary phonetic task를 incorporate 함
- BUT, 해당 방식들은 대부분 complex semantic supervision에 의존적이라는 한계점이 있음
- 이를 위해 기존 model은 external semantic supervision을 사용하여 acoustic-centric codec을 augment 함
-> 그래서 semantic supervision 대신 text-aligned ASR model을 acoustic reconstruction에 adapt 하는 SimWhisper-Codec을 제안
- SimWhisper-Codec
- Whisper를 기반으로 architectural component의 acoustic reconstruction capability를 분석
- Convolutional front-end nonlinearity와 absolute positional encoding을 remove 한 simplified Whisper encoder를 활용하여 fine-grained acoustic information preserving ability를 개선
< Overall of SimWhisper-Codec >
- Simplified Whisper encoder를 활용한 semantic model-based speech codec
- 결과적으로 기존보다 우수한 성능을 달성
2. Empirical Analysis of Components Hindering Acoustic Reconstruction
- 논문은 multilingual Whisper encoder에서 acoustic reconstruction capability에 영향을 주는 architectural component에 대한 empirical analysis를 수행함
- Component Analysis and Hypothesis
- Convolutional Front-End Nonlinearity
- Whisper encoder의 front-end는 GELU activation을 가진 2개의 convolutional layer로 구성됨
- 해당 nonlinearity는 acoustic reconstruction을 위한 spectral detail을 suppress 할 수 있음 - 즉, 해당 activation을 remove 하면 convolutional layer는 input signal을 preserve 하고 acoustic detail을 retain 할 수 있는 purely linear transformation으로 동작할 수 있음
- Whisper encoder의 front-end는 GELU activation을 가진 2개의 convolutional layer로 구성됨
- Absolute Positional Encodings
- Absolute positional encoding은 각 sequence의 temporal position에 fix 된 identity marker로 사용됨
- 이때 논문은 해당 positional encoding이 acoustic reconstruction에 detrimental 하다고 가정함
- Acoustic feature는 position-invariant 해야 하기 때문
- e.g., phoneme $\texttt{/a/}$는 temporal location에 관계없이 identical representation을 가져야 함 - Speech는 repetitive structure를 가지고 있으므로 absolute encoding은 reconstruction을 위한 pattern recognition을 hindering 할 수 있음
- Acoustic feature는 position-invariant 해야 하기 때문

- Validation Analysis
- 앞선 hypothesis를 validate 하기 위해 LJSpeech를 사용하여 controlled analysis를 수행함
- 이를 위해 각 Whisper encoder variant의 final layer에서 frame-level hidden state를 추출한 다음, HiFi-GAN vocoder를 conditioning 하여 reconstruction quality를 assess 함
- 모든 encoder variant는 HiFi-GAN training 동안 frozen 되고 feature extractor로 사용됨 - Convolutional front-end와 nonlinearity를 remove 하면 PESQ-NB가 1.24에서 3.60, STOI는 0.82에서 0.86으로 향상됨
- Absolute positional encoding을 remove 하는 경우에도 PESQ-NB, STOI가 향상됨
- 특히 두 component 모두를 remove 하면 최고의 성능 향상을 얻을 수 있음
- Nonlinearity는 spectral detail을 suppress 하고 positional encoding은 flexible attention pattern을 interfere 하기 때문
- 추가적으로 middle Transformer layer의 self-attention pattern을 확인해 보면, absolute positional encoding을 remove 하는 경우 self-attention pattern에서 diagonal dominance가 reduce 되어 sequence 전체에 spread 됨
- 결과적으로 두 component를 simultaneously remove 하면 optimal reconstruction이 가능함
- 따라서 논문은 해당 simplified Whisper encoder를 frozen feature extractor로 채택함
- 이를 위해 각 Whisper encoder variant의 final layer에서 frame-level hidden state를 추출한 다음, HiFi-GAN vocoder를 conditioning 하여 reconstruction quality를 assess 함

3. Method
- SimWhisper-Codec
- 논문은 Whisper의 inherent semantic capability를 high-quality acoustic reconstruction에 adapt 함
- 이때 Whisper의 extensive multilingual training과 text alignment가 natural semantic grounding을 제공하므로 additional semantic model은 필요하지 않음
- 대신 ASR invariance를 위한 architectural component가 fine-grained acoustic preservation을 hinder 함 - 따라서 SimWhisper-Codec은 FSQ quantization과 symmetric trainable decoder를 pair 한 frozen simplified Whisper encoder를 도입함
- 이때 Whisper의 extensive multilingual training과 text alignment가 natural semantic grounding을 제공하므로 additional semantic model은 필요하지 않음

- Model Architecture
- SimWhisper-Codec은 simplified Whisper encoder, downsampling module, quantizer, upsampling module, symmetric decoder로 구성됨
- Encoder
- Encoder는 pre-trained weight로 initialize 된 Whisper architecture를 사용함
- 이때 acoustic preservation을 위해 2가지 modification을 적용함:
- Initial 2 convolutional layer에서 GELU nonlinearity를 remove 하되, layer structure와 learned weight는 preserve 하여 pre-trained Whisper model과의 compatibility를 maintain 함
- Transformer block에서 absolute positional encoding을 completely remove 함 - 해당 simplified encoder는 codec training 시 freeze 되어 powerful feature extractor로 사용됨
- Downsampler
- Downsampler는 consecutive frame을 stack 하고 temporal information을 aggregate 하여 temporal resolution을 reduce 함
- 이후 dilated convolution과 Snake activation을 포함한 residual block을 통해 multi-scale temporal context를 capture 하고 feature dimensionality를 compress 함
- Quantizer
- Finite Scalar Quantization (FSQ) module를 활용하여 codebook collapse를 mitigate 하고 exponential moving average, commitment loss와 같은 complex training을 obviate 함
- Upsampler
- Upsampler는 dilated conolution, Snake activation을 사용한 residual block을 통해 feature를 reconstruct 함
- 이후 channel dimension을 expand 하고 feature를 unstack 하여 original temporal resolution, dimensionality를 restore 함
- Decoder
- Decoder는 encoder와 symmetric 한 architecture를 활용함
- Encoder의 convolutional layer는 transposed convolution으로 replace 하고 동일한 architectural depth와 feature dimension을 maintain 함 - 최종적으로는 Vocos를 사용해 spectral feature를 final audio waveform으로 convert 함
- Decoder는 encoder와 symmetric 한 architecture를 활용함
- Encoder
- Training Objective
- SimWhisper-Codec은 single-stage GAN-based approach를 사용하여 training 됨
- 먼저 generator는 다음의 composite loss function을 minimize 함:
(Eq. 1) $\mathcal{L}_{G}=\lambda_{recon}\mathcal{L}_{recon}+\lambda_{adv}\mathcal{L}_{adv}+\lambda_{feat}\mathcal{L}_{feat}$
- $\lambda_{recon}, \lambda_{adv}, \lambda_{feat}$ : weight - Multi-Scale Reconstruction Loss $\mathcal{L}_{recon}$
- 논문은 original, reconstructed audio의 mel-spectrogram에 대해 7개의 STFT scale에 대한 $L1$ loss를 compute 함
- 각 scale $k\in\{5,...,11\}$에 대해, 해당 loss는:
(Eq. 2) $ \mathcal{L}_{recon}=\sum_{k}||M_{k}(x)-M_{k}(\hat{x})||_{1}$
- $M_{k}(\cdot)$ : FFT size $2^{k}$로 compute 된 mel-spectrogram
- $x$ : original audio, $\hat{x}$ : reconstructed audio
- Adversarial Loss $\mathcal{L}_{adv}$
- 논문은 perceptual quality를 위해 Least Square GAN objective를 채택함
- 이때 discriminator loss는:
(Eq. 3) $\mathcal{L}_{D}=\frac{1}{N}\sum_{i=1}^{N}\left[\left(D_{i}(x)-1\right)^{2}+D_{i}\left(G(z)\right)^{2}\right]$
- $D_{i}$ : $i$-th discriminator output, $N$ : discriminator 수, $G(z)$ : generated audio - 그러면 generator adversarial loss는:
(Eq. 4) $\mathcal{L}_{adv}=\frac{1}{N}\sum_{i=1}^{N}\left(D_{i}(G(z))-1\right)^{2}$
- Feature Matching Loss $\mathcal{L}_{feat}$
- Real, generated audio에 대한 discriminator의 feature map 간 $L1$ loss를 통해 quality를 향상할 수 있음
- Feature matching loss는:
(Eq. 5) $\mathcal{L}_{feat}=\frac{1}{N\cdot K}\sum_{i=1}^{N}\sum_{j=1}^{K}\frac{\left|\left| D_{i}^{j}(x)-D_{i}^{j}\left(G(z)\right)\right|\right|_{1}}{\left|\left| D_{i}^{j}(x)\right|\right|_{1}}$
- $D_{i}^{j}(\cdot)$ : $i$-th discriminator의 $j$-th layer feature map, $K$ : feature layer 수, $\epsilon$ : numerical stability를 위한 small constant
- 먼저 generator는 다음의 composite loss function을 minimize 함:
4. Experiments
- Settings
- Dataset : LibriSpeech
- Comparisons : EnCodec, DAC, SpeechTokenizer, BigCodec, Mimi, XY-Tokenizer
- Results
- 전체적으로 SimWhisper-Codec의 성능이 가장 우수함

- Ablation Study
- 각 component는 성능 향상에 유효함

- Preservation of Acoustic Attributes
- Simplified Whisper는 모든 layer에 대해 stable $F_{0}$ tracking을 maintain 할 수 있음

반응형
'Paper > Neural Codec' 카테고리의 다른 글
댓글
