End-to-End LPCNet: A Neural Vocoder with Fully-Differentiable LPC EstimationNeural vocoder는 여전히 우수한 합성 품질에 비해 높은 computational complexity가 요구됨End-to-End LPCNetLinear prediction에 기반한 autoregressive model을 사용하여 neural vocoding의 complexity를 완화추가적으로 frame rate network의 input feature에서 linear prediction cofficient를 예측하는 방법을 학습하여 기존 end-to-end version을 구성논문 (INTERSPEECH 2022) : Paper Link1. Introducti..
DFlow: A Generative Model Combining Denoising AutoEncoder and Normalizing Flow for High Fidelity Waveform GenerationHigh-fidelity의 waveform generation을 위한 vocoder가 필요함DFlow고품질 생성을 위해 Normalizing Flow와 Denoising AutoEncoder를 결합추가적으로 model size와 training set을 확장하여 DFlow를 large-scale universal vocoder로 scaling up논문 (ICML 2024) : Paper Link1. IntroductionDeep Generative Model (DGM)은 waveform generat..
JenGAN: Stacked Shifted Filters in GAN-based Speech SynthesisNon-autoregressive GAN-based vocoder는 빠른 추론 속도와 우수한 품질을 지원하지만, audible artifact가 발생하는 경향이 있음JenGANShift-equivariant property를 보장하기 위해 shifted low-pass filter를 stack 하는 training strategy추론 시에 사용되는 model structure를 유지하면서 aliasing을 방지하고 artifact를 줄임논문 (INTERSPEECH 2024) : Paper Link1. IntroductionNeural vocoder는 mel-spectrogram과 같은 audio ..
FreeV: Free Lunch for Vocoders through Pseudo Inversed Mel FilterFrequent-domain GAN vocoder는 우수한 합성 품질을 달성했지만, 상당한 parameter size로 인해 memory burden이 존재함FreeVPseudo-Inverse를 통해 amplitude spectrum을 roughly initialization 하여 vocoder의 parameter demand를 크게 줄임Stream-lined amplitude prediction branch를 통해 추가적인 추론 속도 향상을 달성논문 (INTERSPEECH 2024) : Paper Link1. IntroductionVocoder는 speech acoustic feature..
iSTFTNet2: Faster and More Lightweight iSTFT-based Neural Vocoder Using 1D-2D CNNiSTFTNet은 1D CNN을 backbone으로 사용하고 일부를 iSTFT로 대체해 빠르고 고품질의 음성 합성을 지원함- BUT, 1D CNN은 high-dimensional spectrogram을 모델링하기 어렵고, temporal upsampling에 대한 추가적인 속도 개선의 여지가 남아있음iSTFTNet2Temporal, spectral structure를 각각 모델링하기 위해 1D-2D CNN을 활용해 iSTFTNet을 개선Few-frequency space에서 conversion 이후 frequency upsampling을 수행하는 2D CNN을 ..
ItoWave: Ito Stochastic Differential Equation is All You Need for Wave GenerationForward/reverse-time linear stochastic differential equation의 pair에 기반한 vocoder를 구성할 수 있음ItoWaveWaveform을 tractable distribution으로 변환하는 process와 해당 tractable signal을 target wave로 변환하는 두 가지의 stochastic process를 활용Original mel-spectrogram의 conditional input 하에서 meaningful audio를 생성하기 위해 noise signal에서 excess signal을 점..