[Paper 리뷰] StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

티스토리 뷰

Paper/Vocoder

[Paper 리뷰] StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

feVeRin 2024. 5. 1. 10:21

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

Lightweight neural vocoder는 여전히 perceptual quailty 측면에서 열등한 성능을 보임
StyleMelGAN
- 낮은 complexity를 가지면서 high-fidelity의 음성을 합성할 수 있는 lightweight neural vocoder
- Temporal Adaptive Normalization을 사용하여 target speech의 acoustic feature로 low-dimensional noise vector를 style 함
- Random Window Discriminator는 multi-scale spectral reconstruction loss에 의해 제공되는 regularization을 통해 filter bank에서 analyze 된 speech signal을 adversarially evaluate 함
논문 (ICASSP 2021) : Paper Link

1. Introduction

Neural vocoder는 text-to-speech (TTS), speech coding, speech enhancement 등의 다양한 task에서 우수한 성능을 보이고 있음
- BUT, 대부분의 neural vocoder는 computational cost가 상당히 높고 합성 속도가 느림
- 이러한 추론 속도 문제를 개선하기 위해 Generative Adversarial Network (GAN)을 사용할 수 있음
  - BUT, 빠른 생성 속도에 비해 합성된 음성의 품질은 여전히 만족스럽지 않음

-> 그래서 낮은 computational cost로 고품질의 음성 합성이 가능한 StyleMelGAN을 제안

StyleMelGAN
- GAN architecture를 기반으로 feature modulation method를 적용하기 위해, Temporal Adaptive DEnormalization (TADE)를 generator block에 삽입
  - 이러한 conditioning feature inserting을 통해 모델은 더 효율적으로 동작할 수 있음
- 이때 adversarial loss는 Pseudo Quadrature Mirror Filter Bank (PQMF) 다음에 이어지는 4개의 discriminator의 ensemble에 의해 계산됨
  - 이를 통해 training 중에 음성의 다양한 frequency band를 analyze 할 수 있음
- Robust, generalize 한 training을 위해 discriminator는 generator의 input acoustic feature로 condition 되지 않고, 대신 random window에서 sampling 된 signal을 사용함

< Overall of StyleMelGAN >

TADE layer를 통해 generator를 highly parallelizable, completely convolutional 하게 구성
Multi-scale spectral reconstruction loss로 regularize 된 PQMF multi-sampling random window discriminator의 ensemble을 사용하여 generator를 adversarially training
결과적으로 기존보다 우수한 합성 품질을 달성하면서, 빠른 추론 속도를 확보

2. Method

- Generator Architecture

Generator는 mel-spectrogram을 condition으로 하여 점진적인 upsampling을 통해 noise vector $z\sim\mathcal{N}(0,I_{128})$을 22.05kHz의 waveform으로 mapping 함
- 이때 normalized activation map의 linear modulation을 기반으로 한 Temporal Adaptive DEnormalization (TADE)를 사용
  - 여기서 modulation parameter $\gamma, \beta$는 conditioning feature로부터 adaptive 하게 학습되고, input activation signal과 동일한 dimension을 가짐
  - 이를 통해 generator의 모든 layer에 conditioning feature를 제공하게 되므로 모든 upsampling stage에서 signal strcutre가 preserving 됨
- 아래 그림과 같이 TADE layer의 input activation은 instance normalization을 통해 normalize 되어 $\gamma \odot c+\beta$를 통해 adaptively modulate 되는 content feature map $c$를 생성함
  - $\odot$ : element-wise mulitplication
  - 이러한 normalization과 modulation의 조합을 통해 generator에서 style transfer process를 수행할 수 있음
- 추가적으로 generator는 ReLU activation 대신 Softmax-gated tanh activation을 사용하여 waveform 생성 시 artifact 발생을 방지함
- 전체 generator architecture는 8번의 upsampling stage로 구성됨
  1. 각 stage는 TADEResBlock과 $2\times$ upsampling layer, 1개의 final activation module로 구성됨
  2. Final activation은 1개의 TADEResBlock과 tanh non-linearity를 가지는 channel-change convolution layer로 구성됨
    - 해당 architecture를 사용하면 maximum dilation factor 2에 대해 64의 channel depth만을 사용할 수 있으므로 computational complexity를 줄일 수 있음

- Filter Bank Random Window Discriminators

StyleMelGAN은 adversarial training을 위해 4개의 discriminator를 사용함
- 각각의 discriminator는 Multi-Band MelGAN의 architecture를 기반으로 하지만, downsampling에 대한 average pooling은 사용하지 않음
  - 추가적으로 각 discriminator는 input speech waveform에서 slice 된 random window에서 동작하면서, PQMF를 통해 얻은 input speech signal의 sub-band를 analyze 함
  - 이때 1초의 waveform에서 추출된 512, 1024, 2048, 4096 sample의 random window에서 각각 계산된 1, 2, 4, 8개의 sub-band를 사용
- 이를 통해 얻어지는 Filter Bank Randow Window Discriminator (FB-RWD)의 구조는 아래 그림과 같음
  - 결과적으로 FB-RWD를 통해 StyleMelGAN은 time, frequency domain 모두에서 speech signal에 대한 multi-resolution adversarial evaluation이 가능해짐

(좌) Generator Architecture (우) Discriminator Architecture

- Training Procedure

GAN training 과정에서 weight에 대한 random initialization을 사용하면 adversarial loss로 인해 audio artifact 발생과 unstable training으로 이어짐
- 이를 해결하기 위해 StyleMelGAN은 Parallel WaveGAN의 training procedure를 따름
  1. 먼저 generator는 서로 다른 STFT에서 계산된 log-magnitude와 spectral convergence의 error estimates로 구성된 spectral reconstruction loss $\mathcal{L}_{aux}$만을 사용하여 pretrain 됨
    - 이를 통해 얻어지는 generator는 high-frequency에서 상당히 smearing 되어 있는 tonal signal을 생성할 수 있음
    - 결과적으로 adversarial training 과정에서 random initialization 보다 더 나은 harmonic structure를 활용 가능
  2. 이후 adverasrial training을 통해 tonal effect를 제거하고 smeared frequency band를 sharpening 하여 naturalness를 향상함
- 해당 adversarial training을 위해, 논문에서는 hinge loss를 사용하여 $k=1,2,3,4$의 각 discriminator $D_{k}$의 adversarial metric을 evaluate 함
  - 이때 spectral reconstruction loss $\mathcal{L}_{aux}$ 역시 adversarial artifact의 발생을 방지하기 위해 regularization으로 사용됨
- 결과적으로 final generator objective는:
  (Eq. 1) $\min_{G}\left(\mathbb{E}_{z}\left[\sum_{k=1}^{4}-D_{k}(G(s,z))\right]+\mathcal{L}_{aux}(G)\right)$
  - $s$ : mel-spectrogram과 같은 conditioning feature, $z$ : latent noise
  - Weight normalization은 $G, D_{k}$의 모든 convolution operation에 적용됨

3. Experiments

- Settings

Dataset : LJSpeech
Comparisons : MelGAN, Parallel WaveGAN, WaveGlow, WaveNet

- Results

합성 결과에 대해 정량적인 평가를 수행해 보면, StyleMelGAN이 가장 우수한 성능을 보임

MUSHRA 측면에서도 StyleMelGAN은 다른 모델들보다 뛰어남

Transformer v3를 사용하여 TTS 측면에서 각 vocoder들을 평가해 보면, 마찬가지로 StyleMelGAN이 가장 뛰어난 것으로 나타남

추가적으로 StyleMelGAN은 complexity 측면에서도 빠르고 합리적임

'Paper > Vocoder' 카테고리의 다른 글

[Paper 리뷰] GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model (0)	2024.05.09
[Paper 리뷰] VocGAN: A High-Fidelity Real-Time Vocoder with Hierarchically-nested Adversarial Network (0)	2024.05.06
[Paper 리뷰] Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with Very Low Computational Complexity (0)	2024.04.29
[Paper 리뷰] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis (0)	2024.04.27
[Paper 리뷰] LangWave: Realistic Voice Generation based on High-Order Langevin Dynamics (0)	2024.04.22

최근에 올라온 글

최근에 달린 댓글

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization

1. Introduction

2. Method

- Generator Architecture

- Filter Bank Random Window Discriminators

- Training Procedure

3. Experiments

- Settings

- Results

'Paper > Vocoder' 카테고리의 다른 글

티스토리툴바