DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP Generative Adversarial Network를 활용한 vocoder는 빠른 추론 속도와 효과적인 raw waveform 합성이 가능 하지만 unseen speaker에 대해서는 high-fidelity speech를 합성하기는 어려움 DSPGAN Digital Signal Processing에서의 time-frequency domain supervision을 도입하여 고품질 합성을 지원 Ground-truth와 예측 mel-spectrogram 사이의 mismatch를 해소하기 위해 DSP module에서 ..
Fre-GAN 2: Fast and Efficient Frequency-Consistent Audio Synthesis 대규모의 TTS 모델은 resource가 제한된 device에 적용하기 어려우므로 neural vocoder는 효율적이면서도 고품질의 합성이 가능해야 함 Fre-GAN 2 Audio의 low/high-frequency에서 합성을 수행하고, inverse discrete wavelet transform을 통해 target-resolution audio를 reproduce 적은 수의 parameter 만으로 고품질의 audio를 합성할 수 있도록 adversarial periodic feature distillation을 도입 논문 (ICASSP 2022) : Paper Link 1. In..
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral ShapingDenoising Diffusion Probabilistic Model을 사용하는 neural vocoder는 주어진 acoustic feature에 대한 diffusion noise 분포를 조절함SpecGradTime-varying spectral envelope가 conditioning log mel-spectrogram에 가까워지도록 diffusion noise를 조절하는 neural vocoderTime-varying filter를 통한 high-frequency band에서의 품질 상승논문 (INTERSPEECH 2022) ..
InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training Denoising diffusion probabilistic model은 추론 과정에서 많은 반복이 필요하므로 추론 속도가 느림 추론 속도 향상을 위해 추론 schedule을 최적화하는 것이 필요 - However, 일반적으로 추론과 학습 process는 개별적으로 최적화됨 InferGrad 추론 process를 학습에 통합한 vocoder용 diffusion model 학습 중 추론 schedule에 따라 reverse process를 통해 random noise로부터 data를 생성하여, 생성된 data와 실제의 차이를 최소화 논문 (ICASSP ..
WaveGlow: A Flow-Based Generative Network for Speech Synthesis Flow-based network는 autoregression 없이 mel-spectrogram에서 고품질 음성을 합성할 수 있음 WaveGlow 고품질 음성 합성을 위해 Glow와 WaveNet의 아이디어를 활용 Training data의 likelihood를 최대화하여 training 단계를 간단하고 안정적으로 만듦 논문 (ICASSP 2019) : Paper Link 1. Introduction 효율적이고 고품질의 음성 합성에 대한 요구사항은 점차 증대되고 있음 음성 품질, latency에 대한 작은 변화도 customer experience와 preference에 큰 영향을 미치기 때문..
LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..