[Paper 리뷰] WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

티스토리 뷰

Paper/Vocoder

[Paper 리뷰] WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

feVeRin 2026. 3. 16. 10:52

WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

대부분의 ConvNeXt-based vocoder는 Generative Adversarial Network framework만 사용함
WaveNeXt2
- Residual denoising과 sub-modeling을 도입하여 waveform을 progressively refine
- Generative Adeversarial Network, diffusion에 모두 compatible 한 ConvNeXt-based architecture를 구성
논문 (ICASSP 2026) : Paper Link

1. Introduction

Vocoder는 mel-spectrogram과 같은 acoustic feature로부터 high-fidelity waveform을 생성함
- 특히 fast, high-fidelity vocoding을 위해 Generative Adversarial Network (GAN)-based, diffusion-based model이 주로 활용됨
  1. HiFi-GAN, WaveFit과 같은 GAN-based model은 generator-discriminator framework를 활용하여 realistic waveform을 생성하지만, training stability의 문제가 있음
  2. 한편으로 DiffWave, WaveGrad, BDDM 등의 diffusion-based model은 iterative denoising process를 활용해 robust training을 제공할 수 있지만, inference speed의 한계가 있음
- Vocoder의 inference speed를 향상하기 위해 Vocos와 같이 ConvNeXt를 도입할 수 있음
  - BUT, Vocos는 GAN-framework에 기반하므로 diffusion-framework로 확장하기 어려움

-> 그래서 GAN, diffusion framework 모두에 compatible한 WaveNeXt2를 제안

WaveNeXt2
- Residual denoising과 sub-modeling을 활용하여 gradual denoising을 수행
- ConvNeXt architecture를 기반으로 GAN, diffusion framework에 대한 compatiblity를 향상

< Overall of WaveNeXt2 >

GAN, diffusion framework 모두에 적용할 수 있는 ConvNeXt-based vocoder
결과적으로 기존보다 우수한 성능을 달성

2. Method

- ConvNeXt-based Residual Sub-Modeling

논문은 WaveNeXt architecture를 기반으로 GAN, diffusion framework 모두에 suitable 한 unified structure를 구성함
- 이를 위해 generator를 speech signal $y_{0}$를 directly generate 하지 않고, 각 time step에서 noise component $n_{t}$를 predict 하도록 modify 함
  - 그러면 unified architecture는 STFT module, WaveNeXt-based generator로 구성됨
- 먼저 WaveNeXt2는 input waveform $y_{t-1}$을 Hann window를 사용하여 STFT representation으로 변환함
  1. 이때 STFT는 centering 되어 compute 되고, complex-valued spectrogram을 생성함
  2. Resulting complex-spectrogram은 target mel-spectrogram의 duration과 match 되도록 truncate 됨
    - 이때 real, imaginary part는 further process를 위해 separate 됨
  3. 이후 mel-spectrogram과 compatible 한 real-valued spectral representation을 얻기 위해, STFT의 full real part와 DC, Nyquist component를 exclude 한 imaginary part를 concatenate 함
  4. 결과적으로 해당 STFT-spec은 mel-spectrogram과 함께 WaveNeXt-based generator에 feed 되어 current time step에서 noise component $n_{t-1}$을 predict 함

- GAN-based Model: GAN-WaveNeXt2

GAN-WaveNeXt2는 training을 위해 WaveFit의 fixed-point iteration strategy를 채택함
- 각 iteration에서 sub-model은 mel-spectrogram과 noisy waveform $y_{t}$를 input으로 receive 하여 next denoised waveform $y_{t-1}$을 predict 함
  - 해당 process는 final waveform $y_{0}$가 synthesize 될 때까지 $T$ step 동안 repeat 됨
- 특히 기존 WaveFit pipeline과 달리 논문은 training loss에서 denoising constraint가 필요하지 않음
  - 추가적으로 STFT loss와 redundant 한 WaveFit의 gain adjustment module도 omit 됨

- Diffusion-based Model: Diff-WaveNeXt2

Diff-WaveNeXt2는 각 sub-model을 separately training 하여 specific range의 noise level에 대한 denoising을 수행함
- 이를 위해 denoising task를 4-stage로 divide 하고 4개의 sub-model을 도입함
  1. 이때 각 sub-model은 mel-spectrogram과 specific noisy audio에 대해 condition 됨
  2. 즉, $ x_{t}=\sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon$
    - $\epsilon$ : Gaussian noise, $x_{0}$ : original clean waveform, $\bar{\alpha}_{t}$ : step $t$에서 predict 된 cumulative noise level
- 추론 시에는 mel-spectrogram과 해당 noise level $\bar{a}$가 각 sub-model의 input으로 제공됨
  1. 이때 initial noise $n$에서 start 하여 4개의 sub-model이 sequentially apply 되고, 각 model은 specific noise level range에서 denoising을 수행함
    - Final output은 synthesized waveform $y_{0}$에 해당함
  2. 추가적으로 iteration 수가 적을 때 synthesized speech에서 high-frequency detail이 lost 될 수 있으므로, missing component를 restore 할 수 있는 time-invariant spectral enhancement post-filtering을 적용함

3. Experiments

- Settings

Dataset : LibriTTS
Comparisons : HiFi-GAN, WaveFit, FastDiff

- Results

전체적으로 WaveNeXt2의 성능이 가장 우수함

MOS 측면에서도 우수한 성능을 보임

Diff-WaveNeXt2는 lighter training burden을 가짐

'Paper > Vocoder' 카테고리의 다른 글

[Paper 리뷰] ComVo: Toward Complex-Valued Neural Networks for Waveform Generation (0)	2026.04.07
[Paper 리뷰] DegVoC: Revisiting Neural Vocoder from a Degradation Perspective (0)	2026.03.30
[Paper 리뷰] Wave-Trainer-Fit: Neural Vocoder with Trainable Prior and Fixed-Point Iteration Towards High-Quality Speech Generation from SSL Features (0)	2026.03.04
[Paper 리뷰] BridgeVoC: Neural Vocoder with Schrodinger Bridge (0)	2025.10.03
[Paper 리뷰] RNDVoC: Learning Neural Vocoder from Range-Null Space Decomposition (0)	2025.10.01

최근에 올라온 글

최근에 달린 댓글

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

1. Introduction

2. Method

- ConvNeXt-based Residual Sub-Modeling

- GAN-based Model: GAN-WaveNeXt2

- Diffusion-based Model: Diff-WaveNeXt2

3. Experiments

- Settings

- Results

'Paper > Vocoder' 카테고리의 다른 글

티스토리툴바

티스토리 뷰

[Paper 리뷰] WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

document.addEventListener("DOMContentLoaded", function() { renderMathInElement(document.body, { delimiters: [ {left: "$$", right: "$$", display: true}, {left: "$", right: "$", display: false} ] });});

WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models

1. Introduction

2. Method

- ConvNeXt-based Residual Sub-Modeling

- GAN-based Model: GAN-WaveNeXt2

- Diffusion-based Model: Diff-WaveNeXt2

3. Experiments

- Settings

- Results

'Paper > Vocoder' 카테고리의 다른 글

티스토리툴바