티스토리 뷰
Paper/Vocoder
[Paper 리뷰] WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models
feVeRin 2026. 3. 16. 10:52반응형
WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models
- 대부분의 ConvNeXt-based vocoder는 Generative Adversarial Network framework만 사용함
- WaveNeXt2
- Residual denoising과 sub-modeling을 도입하여 waveform을 progressively refine
- Generative Adeversarial Network, diffusion에 모두 compatible 한 ConvNeXt-based architecture를 구성
- 논문 (ICASSP 2026) : Paper Link
1. Introduction
- Vocoder는 mel-spectrogram과 같은 acoustic feature로부터 high-fidelity waveform을 생성함
- 특히 fast, high-fidelity vocoding을 위해 Generative Adversarial Network (GAN)-based, diffusion-based model이 주로 활용됨
- Vocoder의 inference speed를 향상하기 위해 Vocos와 같이 ConvNeXt를 도입할 수 있음
- BUT, Vocos는 GAN-framework에 기반하므로 diffusion-framework로 확장하기 어려움
-> 그래서 GAN, diffusion framework 모두에 compatible한 WaveNeXt2를 제안
- WaveNeXt2
- Residual denoising과 sub-modeling을 활용하여 gradual denoising을 수행
- ConvNeXt architecture를 기반으로 GAN, diffusion framework에 대한 compatiblity를 향상
< Overall of WaveNeXt2 >
- GAN, diffusion framework 모두에 적용할 수 있는 ConvNeXt-based vocoder
- 결과적으로 기존보다 우수한 성능을 달성
2. Method
- ConvNeXt-based Residual Sub-Modeling
- 논문은 WaveNeXt architecture를 기반으로 GAN, diffusion framework 모두에 suitable 한 unified structure를 구성함
- 이를 위해 generator를 speech signal $y_{0}$를 directly generate 하지 않고, 각 time step에서 noise component $n_{t}$를 predict 하도록 modify 함
- 그러면 unified architecture는 STFT module, WaveNeXt-based generator로 구성됨 - 먼저 WaveNeXt2는 input waveform $y_{t-1}$을 Hann window를 사용하여 STFT representation으로 변환함
- 이때 STFT는 centering 되어 compute 되고, complex-valued spectrogram을 생성함
- Resulting complex-spectrogram은 target mel-spectrogram의 duration과 match 되도록 truncate 됨
- 이때 real, imaginary part는 further process를 위해 separate 됨 - 이후 mel-spectrogram과 compatible 한 real-valued spectral representation을 얻기 위해, STFT의 full real part와 DC, Nyquist component를 exclude 한 imaginary part를 concatenate 함
- 결과적으로 해당 STFT-spec은 mel-spectrogram과 함께 WaveNeXt-based generator에 feed 되어 current time step에서 noise component $n_{t-1}$을 predict 함
- 이를 위해 generator를 speech signal $y_{0}$를 directly generate 하지 않고, 각 time step에서 noise component $n_{t}$를 predict 하도록 modify 함

- GAN-based Model: GAN-WaveNeXt2
- GAN-WaveNeXt2는 training을 위해 WaveFit의 fixed-point iteration strategy를 채택함
- 각 iteration에서 sub-model은 mel-spectrogram과 noisy waveform $y_{t}$를 input으로 receive 하여 next denoised waveform $y_{t-1}$을 predict 함
- 해당 process는 final waveform $y_{0}$가 synthesize 될 때까지 $T$ step 동안 repeat 됨 - 특히 기존 WaveFit pipeline과 달리 논문은 training loss에서 denoising constraint가 필요하지 않음
- 추가적으로 STFT loss와 redundant 한 WaveFit의 gain adjustment module도 omit 됨
- 각 iteration에서 sub-model은 mel-spectrogram과 noisy waveform $y_{t}$를 input으로 receive 하여 next denoised waveform $y_{t-1}$을 predict 함

- Diffusion-based Model: Diff-WaveNeXt2
- Diff-WaveNeXt2는 각 sub-model을 separately training 하여 specific range의 noise level에 대한 denoising을 수행함
- 이를 위해 denoising task를 4-stage로 divide 하고 4개의 sub-model을 도입함
- 이때 각 sub-model은 mel-spectrogram과 specific noisy audio에 대해 condition 됨
- 즉, $ x_{t}=\sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon$
- $\epsilon$ : Gaussian noise, $x_{0}$ : original clean waveform, $\bar{\alpha}_{t}$ : step $t$에서 predict 된 cumulative noise level
- 이때 각 sub-model은 mel-spectrogram과 specific noisy audio에 대해 condition 됨
- 추론 시에는 mel-spectrogram과 해당 noise level $\bar{a}$가 각 sub-model의 input으로 제공됨
- 이때 initial noise $n$에서 start 하여 4개의 sub-model이 sequentially apply 되고, 각 model은 specific noise level range에서 denoising을 수행함
- Final output은 synthesized waveform $y_{0}$에 해당함 - 추가적으로 iteration 수가 적을 때 synthesized speech에서 high-frequency detail이 lost 될 수 있으므로, missing component를 restore 할 수 있는 time-invariant spectral enhancement post-filtering을 적용함
- 이때 initial noise $n$에서 start 하여 4개의 sub-model이 sequentially apply 되고, 각 model은 specific noise level range에서 denoising을 수행함
- 이를 위해 denoising task를 4-stage로 divide 하고 4개의 sub-model을 도입함

3. Experiments
- Settings
- Results
- 전체적으로 WaveNeXt2의 성능이 가장 우수함

- MOS 측면에서도 우수한 성능을 보임

- Diff-WaveNeXt2는 lighter training burden을 가짐

반응형
'Paper > Vocoder' 카테고리의 다른 글
댓글
