티스토리 뷰

반응형

UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation


  • Full-band spectral feature를 사용하면 vocoder에 많은 acoustic information을 제공할 수 있음
    - BUT, full-band mel-spectrogram 사용 시 over-smoothing 문제가 발생할 수 있음
  • UnivNet
    • Full-band over-smoothing 문제를 해결하는 고품질 neural vocoder
    • Multiple linear spectrogram magnitude를 사용하는 multi-resolution spectrogram discriminator를 도입
  • 논문 (INTERSPEECH 2021) : Paper Link

1. Introduction

  • Generative Adversarial Network (GAN)을 neural vocoder에 적용하면 빠르고, high-fidelity의 음성을 얻을 수 있음
    • 일반적으로 neural vocoder는 mel-spectrogram을 사용하여 waveform을 생성
      - 이때 high-frequency band의 acoustic information이 모델에 제공되지 않음
    • 한편으로 sampling rate의 절반에 해당하는 spectral feature를 input으로 사용하여 full-band acoustic information을 제공할 수 있음
      - BUT, full-band mel-spectrogram을 사용하면 non-sharp spectrogram으로 인해 over-smoothing이 발생함
    • 이때 GAN의 discriminator를 통해 해당 문제를 해결할 수 있음
      - Discriminator가 temporal feature 뿐만 아니라 multiple resolution spectral feature를 input으로 사용하도록 하면 binary classification 성능을 향상할 수 있음

-> 그래서 full-band oversmoothing 문제를 해결하기 위해 multi-resolution spectrogram discriminator를 사용하는 UnivNet을 제안

 

  • UnivNet
    • 다양한 parameter set을 사용하여 계산된 multiple linear spectrogram magnitude를 사용하는 Multi-Resolution Spectrogram Discriminator (MRSD)를 도입
    • Full-band mel-spectrogram을 input으로 사용하여 MRSD를 통해 high-resolution signal을 생성
    • 추가적으로 waveform의 여러 scale에 대한 Multi-Period Waveform Discriminator (MPWD)와 결합하여 spectral, temporal domain 모두를 모델링하도록 함

< Overall of UnivNet >

  • Full-band over-smoothing 문제를 해결하는 고품질, real-time neural vocoder
  • Multiple linear spectrogram magnitude를 사용하는 MRSD를 도입
  • 결과적으로 기존 GAN-based vocoder 보다 우수한 합성 품질과 추론 속도를 달성

2. Method

- Generator

  • UnivNet generator GGMelGAN의 아이디어를 활용함
    • Noise sequence zz는 input으로 사용되고 log mel-spectrogram cc는 condition으로 사용됨
      - zz의 length는 cc와 동일하고, output ˆx^x의 length는 transposed convolution을 통해 target waveform xx와 동일해짐
    • Condition의 local information을 효율적으로 capture하기 위해, Location-Variable Convolution (LVC)를 추가함
      - LVC layer의 kernel은 log mel-spectrogram을 input으로 사용하는 kernel predictor를 통해 예측됨
      - Kernel predictor는 residual stack에 연결되고, 하나의 kernel predictor는 하나의 residual stack에 있는 모든 LVC layer의 kernel을 동시에 예측함
    • Multi-speaker에서의 generality를 향상하기 위해, Gated Activation Unit (GAU)가 각 residual connection에 추가됨

- Discriminator

  • Discriminator DD는 real/generated signal에서 계산된 multiple spectrogram과 reshaped waveform을 활용함
    • 이를 위한 Multi-Resolution Spectrogram Discriminator (MRSD)
      1. mm-th sub-discriminator에 대한 input을 위해, MM개의 real/generated linear spectrogram magnitude {sm=|FTm(x)|,ˆsm=|FTm(ˆx)|}Mm=1{sm=|FTm(x)|,^sm=|FTm(^x)|}Mm=1는,
        - MM STFT parameter set {FTm()}Mm=1{FTm()}Mm=1을 사용하여 동일한 waveform에서 계산됨
        - 각각은 Fourier transform의 point 수, frame shift interval, window length를 포함
      2. MRSD는 다양한 temporal, spectral resolution을 가지는 multiple spectrogram을 사용하므로, full-band에 걸쳐 high-resolution signal을 생성할 수 있음
    • 구조적으로는 MelGAN의 Multi-Scale Wavefrom Discriminator (MSWD)를 기반으로 strided 2D convolution과 Leaky ReLU로 구성됨
    • Temporal doamin에서 detailed adversarial 모델링을 위해 HiFi-GANMulti-Period Waveform Discriminator (MPWD)를 추가함
      - 이때 waveform의 periodic component는 prime number set의 interval로 추출되어 각 sub-discriminator에 대한 input으로 사용됨

Overall of UnivNet

- Training Loss

  • Multi-resolution STFT loss는 학습을 위한 auxiliary loss로써, 다양한 STFT parameter set을 사용하여 계산된 multiple spectrogram loss의 합에 해당함
    • Spectral convergence loss Lsc와 log STFT magnitude loss Lmag로 구성된 loss Laux:
      (Eq. 1) Lsc(s,ˆs)=||sˆs||F||s||F,Lmag(s,ˆs)=1S||logslogˆs||1
      (Eq. 2) Laux(x,ˆx)=1MMm=1Ex,ˆx[Lsc(sm,ˆsm)+Lmag(sm,ˆsm)]
      - ||||F,||||1 : 각각 Frobenius, L1 norm, S : spectrogram의 element 수
      - m-th Lsc,Lmagm-th MRSD sub-discriminator에 사용된 smˆsm을 reuse 함
      - 각 loss의 개수는 M으로, MRSD sub-discriminator의 개수와 동일
    • UnivNet은 least squares GAN의 objective를 사용하고, 이때 overall objective는:
      (Eq. 3) LG=λLaux(x,G(z,c))+1KKk=1Ez,c[(Dk(G(z,c))1)2]
      (Eq. 4) LD=1KKk=1(Ex[(Dk(x)1)2]+Ez,c[Dk(G(z,c))2])
      - Dk : MRSD, MPWD의 k-th sub-discriminator, K : 전체 sub-discriminator 수, λ : balance parameter

UnivNet Details

3. Experiments

- Settings

- Results

  • Ablation Study
    • 아래 표에서 G1= LVC, G2=GAU, D1=MRSD, D2=MPWD, D3=MSWD
    • 각 component들은 모두 UnivNet의 성능 향상에 크게 기여함

Ablation Study 결과

  • 특히 MRSD를 제거하는 경우, high-frequency band에서 over-smoothing 문제가 발생함
    - 결과적으로 MOS 저하로 이어짐

MRSD 제거에 따른 Mel-Spectrogram 비교

  • Comparison with Existing Models
    • 전체적인 합성 품질 측면에서도 UnivNet이 가장 우수한 것으로 나타남
    • 합성 효율성 측면에서 UnivNet은 더 적은 수의 parameter로 real-time보다 200배 빠른 합성 속도를 보임

모델 성능 비교

 

반응형
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday