
LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..

APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Amplitude와 Phase spectra를 직접 예측하여 acoustic feature로부터 음성 waveform을 재구성하는 neural vocoder APNet Amplitude Spectrum Predictor (ASP)와 Phase Spectrum Predictor (PSP)로 구성 ASP는 acoustic feature로부터 frame-level amplitude spectra를 예측 PSP는 acoustic feature로부터 frame-level phase spectra를 예측 논문 (TASLP 2023)..

Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..

Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder Unified Source-Filter GAN (USFGAN)은 source filter 이론을 도입하여 높은 음성 품질과 pitch 제어를 가능하게 함 USFGAN은 높은 temporal resolution으로 인해 높은 계산 비용을 가짐 Source-Filter HiFi-GAN HiFi-GAN에 source filter 이론을 도입한, 빠르고 pitch 제어가 가능한 neural vocoder Source excitation information에 resonance filter를 계층적으로 conditioning 논문 (ICASSP 2023) : Paper ..

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Generative Adversarial Network (GAN)을 활용한 음성 합성은 autoregressive에 비해 낮은 품질을 보임 하지만 GAN을 활용하면 sampling과 메모리 효율성을 향상할 수 있음 HiFi-GAN 다양한 period를 가지는 sinusoidal pattern을 모델링 Autoregressive 모델보다 더 빠르고 고품질의 음성을 합성 논문 (NeurIPS 2020) : Paper Link 1. Introduction 대부분의 음성 합성 모델은 two-stage 구조를 가짐 Text로 부터 mel-spectrog..

Hierarchical Diffusion Models for Singing Voice Neural Vocoder Pitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움 서로 다른 sampling rate에 대한 multiple diffusion model을 도입 HPG (Hierarchical Diffusion Model + PriorGrad) Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성 다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성 논문 (ICASS..