DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANsDenoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 우수한 성능으로 보이고 있지만, 높은 sampling cost의 문제가 있음DiffGAN-TTSDenoising distribution을 근사하기 위해 adversarially-trained expressive model을 채택한 denoising diffusion generative adversarial network (GAN)을 기반으로 함추가적으로 추론 속도를 더욱 향상하기 위해 active shallow diffusion mechanism을 도입Tw..
Score-based Generative Modeling through Stochastic Differential EquationsGenerative modeling은 noise로부터 data를 생성하는 것을 목표로 함Score-based Generative Modeling with SDENoise를 inject 하여 complex data distribution을 known prior distribution으로 변환하는 Stochastic Differential Equation (SDE)와 denoising을 통해 prior를 data distribution으로 변환하는 reverse-time SDE를 활용Score-based modeling을 활용하여 neural network를 통해 time-dep..
DETS: End-to-End Single-Stage Text-to-Speech via Hierarchical Diffusion GAN ModelsEnd-to-End text-to-speech는 여전히 naturalness와 prosody diversity 측면에서 한계가 있음DETSHierarchical denoising diffusion GAN을 도입한 end-to-end frameworkDenoising distribution을 모델링하기 위해 non-Gaussian multi-modal function을 채택하여 다양한 pitch와 rhythm을 반영할 수 있는 one-to-many relationship을 학습논문 (ICASSP 2024) : Paper Link1. IntroductionText..
GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion ModelDiffusion model은 diffusion process로 인한 비효율성이 존재하고 unseen speaker에 대한 고품질 합성이 어려움GLA-GradConditioning error를 최소화하면서 diffusion process의 효율성을 향상하기 위해 diffusion process의 각 step에 Griffin-Lim algorithm을 도입이를 통해 추가적인 training이나 fine-tuning 없이 already-trained waveform generation model에 직접 적용 가능논문 (ICASSP 2024) : Paper Link1. Introductio..
ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-SpeechDiffusion model은 text-to-speech에서 우수한 성능을 보이고 있지만, iterative sampling process로 인해 accleration의 한계가 있음특히 gradient-based model은 높은 품질을 보장하기 위해 수천번의 iteration이 필요함ProDiff고품질의 text-to-speech를 위한 progressive fast diffusion modelSampling accleration 시 발생하는 품질 저하를 방지하기 위해 clean data를 직접 예측하여 desnoising model을 parameterizationDiffu..
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech SynthesisDenoising Diffusion Probabilistic Model은 우수한 합성 성능을 보이지만, iterative sampling process로 인해 속도의 한계가 있음FastDiff고품질의 음성 합성을 위한 fast conditional diffusion model다양한 receptive field pattern의 time-aware location-variable convolution stack을 사용하여 adaptive condition으로 long-term dependency를 모델링품질을 유지하면서 sampling step을 줄이기 위해 noise ..