티스토리 뷰

반응형

Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains


  • 여러 domain에서 high-fidelity의 음성을 합성할 수 있는 vocoder가 필요함
  • Universal MelGAN
    • MelGAN-based structure에 multi-resolution spectrogram discriminator를 추가하여 생성된 waveform의 spectral resolution을 향상
    • 이를 통해 large footprint 모델의 high-frequency band에서의 over-smoothing 문제를 방지
  • 논문 (ICASSP 2021) : Paper Link

1. Introduction

  • 최근의 neural vocoder는 single speaker utterance로 train 되어 우수한 합성 속도와 audio fidelity를 달성함
    • BUT, speaker, language, expressive utternace와 같은 다양한 domain에서 자연스러운 음성을 합성하는 것에는 한계가 있음
      - 따라서 input이 training 중에 학습되었는지, out-of-domain 인지에 관계없이 다양한 domain에서 고품질의 음성을 합성할 수 있는 universal vocoder가 필요함
    • 대표적으로 MelGAN은 Generative Adversarial Network (GAN)을 기반으로 한 lightweight, robust vocoder임
      1. 이때 multi-scale discriminator를 활용해 unvoiced, breathy speech segment에서 발생하는 metallic sound를 완화하여 우수한 품질을 달성
      2. BUT, MelGAN은 multiple speaker learning에는 효율적이지 않고, non-sharp spectrogram에 대해 종종 over-smoothing 문제가 발생함

-> 그래서 MelGAN의 품질을 개선하고 universal vocoder로 확장한 Universal MelGAN을 제안

 

  • Universal MelGAN
    • 기존 MelGAN의 over-smoothing 문제를 multi-resolution spectrogram discriminator 도입을 통해 frequency domain에서 해결
    • Multi-scale discriminator는 waveform과 spectrogram을 discriminate 하여 fine-grained spectrogram을 예측하도록 함

< Overall of Universal MelGAN >

  • MelGAN-based structure에 multi-resolution spectrogram discriminator를 추가하여 생성된 waveform의 spectral resolution을 향상
  • 이를 통해 기존 high frequency band에서의 over-smoothing 문제를 방지
  • 결과적으로 unseen speaker, emotion, language 등 다양한 domain에서 우수한 합성 품질을 달성함

2. Method

- Full-Band MelGAN (FB-MelGAN)

  • 논문에서는 FB-MelGAN을 baseline으로 사용
    • FB-MelGAN은 generator pre-training, residual stack의 receptive field 증가, multi-resolution STFT loss 등을 사용하여 더 나은 fidelity와 training stability를 보장함
    • 먼저 multi-resolution STFT loss는 다양한 STFT parameter set으로 계산된 여러 spectrogram loss의 합으로써:
      (Eq. 1) Lmsc(x,ˆx)=|||STFTm(x)||STFTm(ˆx)|||F|||STFTm(x)|||F
      (Eq. 2) Lmmag(x,ˆx)=1N||log|STFTm(x)|log|STFTm(ˆx)|||1
      (Eq. 3) Laux(G)=1MMm=1Ex,ˆx[Lmsc(x,ˆx)+Lmmag(x,ˆx)]
      - Lmsc(,) : spectral convergence loss, Lmmag(,) : log STFT magnitude loss
      - ||||F : Frobenius norm, ||||1 : L1 norm, M : STFT parameter set 수, N : STFT magnitude의 element 수
      - |STFTm()| : m-th STFT parameter set의 STFT magnitude
    • Loss는 generator G를 사용하여 real data x와 예측 data ˆx=G(c) 간의 distance를 최소화 하는데 사용됨
      - c : mel-spectrogram
    • 결과적으로 auxiliary loss를 포함한 overall objective:
      (Eq. 4) LG(G,D)=Laux(G)+λKKk=1Eˆx[(Dk(ˆx)1)2]
      (Eq. 5) LD(G,D)=1KKk=1(Ex[(Dk(x)1)2]+Eˆx[Dk(ˆx)2])
      - K : discriminator의 수, λ : balancing parameter

Universal MelGAN Architecture

- Universal MelGAN: Improvements

  • 여러 speaker의 utterance에 대해 앞선 FB-MelGAN을 training 하면, single speaker의 utterance로 training 한 결과보다 낮은 품질의 음성을 생성함
    • FB-MelGAN의 multi-scale discriminator는 해당 품질 저하를 완화하기 위해 사용되지만, multi-speaker training에서는 제대로 동작하지 않음
      - 결과적으로 unvoiced, breathy segment에서 metallic sound를 발생시킴
    • 따라서 효과적인 multi-speaker 학습을 위해 Universal MelGAN은,
      1. Generator의 hidden channel size를 4배로 늘리고, 각 residual stack의 마지막 layer에 Gated Activation Unit (GAU)를 추가함
        - 이러한 non-linearity의 확장을 통해 multi-speaker에서도 우수한 품질을 달성할 수 있음
      2. 이때 multi-speaker 품질 문제는 해결했지만 high-frequency band에서 artifact와 over-smoothing 문제는 여전히 남아있음
        - Temporal domain의 discriminator는 frequency domain의 문제 해결에는 충분하지 않기 때문
      3. 이러한 high frequency band의 over-smoothing 문제 해결을 위해, Universal MelGAN에 multi-resolution spectrogram discriminator를 추가적으로 도입함
    • 결과적으로 Universal MelGAN은 다음과 같이 업데이트됨:
      (Eq. 6) LG(G,D)=Laux(G)+λK+M(Kk=1Eˆx[(Dk(ˆx)1)2]+Mm=1Eˆx[(Dsm(|STFTm(ˆx)|)1)2])
      (Eq. 7) LD(G,D)=1K+M(Kk=1(Ex[(Dk(x)1)2]+Eˆx[Dk(ˆx)2])
      +Mm=1(Ex[(Dsm(|STFTm(x)|)1)2]+Eˆx[Dsm(|STFTm(ˆx)|)2]))
      - Dsm : multi-resolution STFT module에 attach 된 spectrogram discriminator

      - 각 m-th model은 m-th STFT loss를 최소화하기 위해 이전에 계산된 spectrogram loss를 사용함

    • 구조적으로 large footprint generator에 의해 생성된 waveform은 waveform, spectrogram 모두에 대해 여러 scale로 discriminate 됨
    • 실제로 아래 그림과 같이 생성된 waveform의 high-frequency band에 대한 mel-spectorgram을 확인해 보면,
      1. Sizeup과 GAU를 적용하면 기존 FB-MelGAN 보다 향상된 resolution을 얻을 수 있지만, 9kHz 이상의 high band에서 over-smoothing이 발생하는 것으로 나타남
      2. 반면 Universal MelGAN에서는 빨간색 박스와 같이 해당 문제를 완화할 수 있고, 노란색 박스와 같이 harmonic shape를 생성할 수도 있음

Mel-Spectrogram 비교

3. Experiments

- Settings

  • Dataset : Korean Speech Dataset (internal), LJSpeech, LibriTTS, Blizzard, CSS
  • Comparisons : WaveGlow, WaveRNN, FB-MelGAN

Dataset 종류

- Results

  • Seen Speakers
    • 제안된 Universal MelGAN은 다른 모델들보다 우수한 성능을 보임
    • 즉, Universal MelGAN은 training 중에 speaker의 utterance가 자주 사용되었는지 여부에 관계없이 high-fidelity의 음성을 합성할 수 있는 robustness를 보임

Seen Speaker에서의 결과

  • Unseen Domains: Speaker, Emotion, Language
    • Unseen domain에 대해서도 Universal MelGAN이 가장 우수한 성능을 달성함
    • 특히 대부분의 모델은 speaker set에 비해 emotion, language set에서는 성능 저하를 보이는데, Universal MelGAN은 거의 일정하게 성능을 유지함

Unseen Domain에서의 결과

  • Multi-Speaker Text-to-Speech
    • JDI-T acoustic model을 사용하여 multi-speaker text-to-speech로 확장해 보면
    • Universal MelGAN은 0.028 RTF의 속도로 다른 모델들보다 더 높은 MOS를 달성함

Multi-speaker Text-to-Speech 결과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday