티스토리 뷰

반응형

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization


  • Lightweight neural vocoder는 여전히 perceptual quailty 측면에서 열등한 성능을 보임
  • StyleMelGAN
    • 낮은 complexity를 가지면서 high-fidelity의 음성을 합성할 수 있는 lightweight neural vocoder
    • Temporal Adaptive Normalization을 사용하여 target speech의 acoustic feature로 low-dimensional noise vector를 style 함
    • Random Window Discriminator는 multi-scale spectral reconstruction loss에 의해 제공되는 regularization을 통해 filter bank에서 analyze 된 speech signal을 adversarially evaluate 함
  • 논문 (ICASSP 2021) : Paper Link

1. Introduction

  • Neural vocoder는 text-to-speech (TTS), speech coding, speech enhancement 등의 다양한 task에서 우수한 성능을 보이고 있음
    • BUT, 대부분의 neural vocoder는 computational cost가 상당히 높고 합성 속도가 느림
    • 이러한 추론 속도 문제를 개선하기 위해 Generative Adversarial Network (GAN)을 사용할 수 있음
      - BUT, 빠른 생성 속도에 비해 합성된 음성의 품질은 여전히 만족스럽지 않음

-> 그래서 낮은 computational cost로 고품질의 음성 합성이 가능한 StyleMelGAN을 제안

 

  • StyleMelGAN
    • GAN architecture를 기반으로 feature modulation method를 적용하기 위해, Temporal Adaptive DEnormalization (TADE)를 generator block에 삽입
      - 이러한 conditioning feature inserting을 통해 모델은 더 효율적으로 동작할 수 있음
    • 이때 adversarial loss는 Pseudo Quadrature Mirror Filter Bank (PQMF) 다음에 이어지는 4개의 discriminator의 ensemble에 의해 계산됨
      - 이를 통해 training 중에 음성의 다양한 frequency band를 analyze 할 수 있음
    • Robust, generalize 한 training을 위해 discriminator는 generator의 input acoustic feature로 condition 되지 않고, 대신 random window에서 sampling 된 signal을 사용함

< Overall of StyleMelGAN >

  • TADE layer를 통해 generator를 highly parallelizable, completely convolutional 하게 구성
  • Multi-scale spectral reconstruction loss로 regularize 된 PQMF multi-sampling random window discriminator의 ensemble을 사용하여 generator를 adversarially training
  • 결과적으로 기존보다 우수한 합성 품질을 달성하면서, 빠른 추론 속도를 확보

2. Method

- Generator Architecture

  • Generator는 mel-spectrogram을 condition으로 하여 점진적인 upsampling을 통해 noise vector $z\sim\mathcal{N}(0,I_{128})$을 22.05kHz의 waveform으로 mapping 함
    • 이때 normalized activation map의 linear modulation을 기반으로 한 Temporal Adaptive DEnormalization (TADE)를 사용
      - 여기서 modulation parameter $\gamma, \beta$는 conditioning feature로부터 adaptive 하게 학습되고, input activation signal과 동일한 dimension을 가짐
      - 이를 통해 generator의 모든 layer에 conditioning feature를 제공하게 되므로 모든 upsampling stage에서 signal strcutre가 preserving 됨
    • 아래 그림과 같이 TADE layer의 input activation은 instance normalization을 통해 normalize 되어 $\gamma \odot c+\beta$를 통해 adaptively modulate 되는 content feature map $c$를 생성함
      - $\odot$ : element-wise mulitplication
      - 이러한 normalization과 modulation의 조합을 통해 generator에서 style transfer process를 수행할 수 있음
    • 추가적으로 generator는 ReLU activation 대신 Softmax-gated tanh activation을 사용하여 waveform 생성 시 artifact 발생을 방지함
    • 전체 generator architecture는 8번의 upsampling stage로 구성됨
      1. 각 stage는 TADEResBlock과 $2\times$ upsampling layer, 1개의 final activation module로 구성됨
      2. Final activation은 1개의 TADEResBlock과 tanh non-linearity를 가지는 channel-change convolution layer로 구성됨
        - 해당 architecture를 사용하면 maximum dilation factor 2에 대해 64의 channel depth만을 사용할 수 있으므로 computational complexity를 줄일 수 있음

TADEResBlock과 TADE layer

- Filter Bank Random Window Discriminators

  • StyleMelGAN은 adversarial training을 위해 4개의 discriminator를 사용함
    • 각각의 discriminator는 Multi-Band MelGAN의 architecture를 기반으로 하지만, downsampling에 대한 average pooling은 사용하지 않음
      - 추가적으로 각 discriminator는 input speech waveform에서 slice 된 random window에서 동작하면서, PQMF를 통해 얻은 input speech signal의 sub-band를 analyze 함
      - 이때 1초의 waveform에서 추출된 512, 1024, 2048, 4096 sample의 random window에서 각각 계산된 1, 2, 4, 8개의 sub-band를 사용
    • 이를 통해 얻어지는 Filter Bank Randow Window Discriminator (FB-RWD)의 구조는 아래 그림과 같음
      - 결과적으로 FB-RWD를 통해 StyleMelGAN은 time, frequency domain 모두에서 speech signal에 대한 multi-resolution adversarial evaluation이 가능해짐

(좌) Generator Architecture (우) Discriminator Architecture

- Training Procedure

  • GAN training 과정에서 weight에 대한 random initialization을 사용하면 adversarial loss로 인해 audio artifact 발생과 unstable training으로 이어짐
    • 이를 해결하기 위해 StyleMelGAN은 Parallel WaveGAN의 training procedure를 따름
      1. 먼저 generator는 서로 다른 STFT에서 계산된 log-magnitude와 spectral convergence의 error estimates로 구성된 spectral reconstruction loss $\mathcal{L}_{aux}$만을 사용하여 pretrain 됨
        - 이를 통해 얻어지는 generator는 high-frequency에서 상당히 smearing 되어 있는 tonal signal을 생성할 수 있음
        - 결과적으로 adversarial training 과정에서 random initialization 보다 더 나은 harmonic structure를 활용 가능
      2. 이후 adverasrial training을 통해 tonal effect를 제거하고 smeared frequency band를 sharpening 하여 naturalness를 향상함
    • 해당 adversarial training을 위해, 논문에서는 hinge loss를 사용하여 $k=1,2,3,4$의 각 discriminator $D_{k}$의 adversarial metric을 evaluate 함
      - 이때 spectral reconstruction loss $\mathcal{L}_{aux}$ 역시 adversarial artifact의 발생을 방지하기 위해 regularization으로 사용됨
    • 결과적으로 final generator objective는:
      (Eq. 1) $\min_{G}\left(\mathbb{E}_{z}\left[\sum_{k=1}^{4}-D_{k}(G(s,z))\right]+\mathcal{L}_{aux}(G)\right)$
      - $s$ : mel-spectrogram과 같은 conditioning feature, $z$ : latent noise
      - Weight normalization은 $G, D_{k}$의 모든 convolution operation에 적용됨

3. Experiments

- Settings

- Results

  • 합성 결과에 대해 정량적인 평가를 수행해 보면, StyleMelGAN이 가장 우수한 성능을 보임

정량적 성능 비교

  • MUSHRA 측면에서도 StyleMelGAN은 다른 모델들보다 뛰어남

MUSHRA 성능 비교

  • Transformer v3를 사용하여 TTS 측면에서 각 vocoder들을 평가해 보면, 마찬가지로 StyleMelGAN이 가장 뛰어난 것으로 나타남

TTS 품질 비교

  • 추가적으로 StyleMelGAN은 complexity 측면에서도 빠르고 합리적임

모델 Complexity 비교

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday