티스토리 뷰

반응형

WaveNeXt2: ConvNeXt-based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for GAN and Diffusion Models


  • 대부분의 ConvNeXt-based vocoder는 Generative Adversarial Network framework만 사용함
  • WaveNeXt2
    • Residual denoising과 sub-modeling을 도입하여 waveform을 progressively refine
    • Generative Adeversarial Network, diffusion에 모두 compatible 한 ConvNeXt-based architecture를 구성
  • 논문 (ICASSP 2026) : Paper Link

1. Introduction

  • Vocoder는 mel-spectrogram과 같은 acoustic feature로부터 high-fidelity waveform을 생성함
    • 특히 fast, high-fidelity vocoding을 위해 Generative Adversarial Network (GAN)-based, diffusion-based model이 주로 활용됨
      1. HiFi-GAN, WaveFit과 같은 GAN-based model은 generator-discriminator framework를 활용하여 realistic waveform을 생성하지만, training stability의 문제가 있음
      2. 한편으로 DiffWave, WaveGrad, BDDM 등의 diffusion-based model은 iterative denoising process를 활용해 robust training을 제공할 수 있지만, inference speed의 한계가 있음
    • Vocoder의 inference speed를 향상하기 위해 Vocos와 같이 ConvNeXt를 도입할 수 있음
      - BUT, Vocos는 GAN-framework에 기반하므로 diffusion-framework로 확장하기 어려움

-> 그래서 GAN, diffusion framework 모두에 compatible한 WaveNeXt2를 제안

 

  • WaveNeXt2
    • Residual denoising과 sub-modeling을 활용하여 gradual denoising을 수행
    • ConvNeXt architecture를 기반으로 GAN, diffusion framework에 대한 compatiblity를 향상

< Overall of WaveNeXt2 >

  • GAN, diffusion framework 모두에 적용할 수 있는 ConvNeXt-based vocoder
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

- ConvNeXt-based Residual Sub-Modeling

  • 논문은 WaveNeXt architecture를 기반으로 GAN, diffusion framework 모두에 suitable 한 unified structure를 구성함
    • 이를 위해 generator를 speech signal $y_{0}$를 directly generate 하지 않고, 각 time step에서 noise component $n_{t}$를 predict 하도록 modify 함
      - 그러면 unified architecture는 STFT module, WaveNeXt-based generator로 구성됨
    • 먼저 WaveNeXt2는 input waveform $y_{t-1}$을 Hann window를 사용하여 STFT representation으로 변환함
      1. 이때 STFT는 centering 되어 compute 되고, complex-valued spectrogram을 생성함
      2. Resulting complex-spectrogram은 target mel-spectrogram의 duration과 match 되도록 truncate 됨
        - 이때 real, imaginary part는 further process를 위해 separate 됨
      3. 이후 mel-spectrogram과 compatible 한 real-valued spectral representation을 얻기 위해, STFT의 full real part와 DC, Nyquist component를 exclude 한 imaginary part를 concatenate 함
      4. 결과적으로 해당 STFT-spec은 mel-spectrogram과 함께 WaveNeXt-based generator에 feed 되어 current time step에서 noise component $n_{t-1}$을 predict 함

Overview

- GAN-based Model: GAN-WaveNeXt2

  • GAN-WaveNeXt2는 training을 위해 WaveFit의 fixed-point iteration strategy를 채택함
    • 각 iteration에서 sub-model은 mel-spectrogram과 noisy waveform $y_{t}$를 input으로 receive 하여 next denoised waveform $y_{t-1}$을 predict 함
      - 해당 process는 final waveform $y_{0}$가 synthesize 될 때까지 $T$ step 동안 repeat 됨
    • 특히 기존 WaveFit pipeline과 달리 논문은 training loss에서 denoising constraint가 필요하지 않음
      - 추가적으로 STFT loss와 redundant 한 WaveFit의 gain adjustment module도 omit 됨

Training Scheme

- Diffusion-based Model: Diff-WaveNeXt2

  • Diff-WaveNeXt2는 각 sub-model을 separately training 하여 specific range의 noise level에 대한 denoising을 수행함
    • 이를 위해 denoising task를 4-stage로 divide 하고 4개의 sub-model을 도입함 
      1. 이때 각 sub-model은 mel-spectrogram과 specific noisy audio에 대해 condition 됨
      2. 즉, $ x_{t}=\sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon$
        - $\epsilon$ : Gaussian noise, $x_{0}$ : original clean waveform, $\bar{\alpha}_{t}$ : step $t$에서 predict 된 cumulative noise level
    • 추론 시에는 mel-spectrogram과 해당 noise level $\bar{a}$가 각 sub-model의 input으로 제공됨
      1. 이때 initial noise $n$에서 start 하여 4개의 sub-model이 sequentially apply 되고, 각 model은 specific noise level range에서 denoising을 수행함
        - Final output은 synthesized waveform $y_{0}$에 해당함
      2. 추가적으로 iteration 수가 적을 때 synthesized speech에서 high-frequency detail이 lost 될 수 있으므로, missing component를 restore 할 수 있는 time-invariant spectral enhancement post-filtering을 적용함

Inference Procedure

3. Experiments

- Settings

- Results

  • 전체적으로 WaveNeXt2의 성능이 가장 우수함

Model 성능 비교

  • MOS 측면에서도 우수한 성능을 보임

MOS 비교

  • Diff-WaveNeXt2는 lighter training burden을 가짐

Training Time

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Total
Today
Yesterday