MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Generative Adversarial Network (GAN)를 사용하여 안정적이고 고품질의 waveform을 합성할 수 있음 MelGAN Mel-spectrogram inversion을 위해 GAN에 대한 architecture 수정과 간단한 training technique을 도입 더 적은 parameter 수와 빠른 추론 속도를 가지는 non-autoregressive 하고 fully convolutional 한 neural vocoder Conditional sequence 합성을 위한 general purpose discriminator 설계로 확장 가능 논문..
Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..