
Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..

Hierarchical Diffusion Models for Singing Voice Neural Vocoder Pitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움 서로 다른 sampling rate에 대한 multiple diffusion model을 도입 HPG (Hierarchical Diffusion Model + PriorGrad) Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성 다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성 논문 (ICASS..