BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech SynthesisDiffusion model은 우수한 합성 품질을 보이고 있지만 효율적인 sampling의 어려움이 있음Bilateral Denoising Diffusion Model (BDDM)Bilateral modeling objective로 train 할 수 있는 schedule network와 score network를 사용하여 forward/reverse process를 parameterize 하는 bilateral denoising diffusion model제안된 surrogate objective는 기존 surrogate보다 tighter 한 log ma..
Elucidating the Design Space of Diffusion-based Generative Models현재의 diffusion-based generative model은 불필요하게 복잡함EDMDiffusion model에 대한 구체적인 design choice을 위한 명확한 design space를 제시이를 위해 sampling, training process, score network의 pre-conditioning 등에 대한 다양한 변경 사항들을 identify 함논문 (NeurIPS 2022) : Paper Link1. IntroductionDiffusion-based generative model은 conditional/unconditional 설정 모두에서 뛰어난 합성 성능을 보이..
Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance Classifier guidance를 활용하여 target speaker의 transcript 없이 고품질의 text-to-speech를 수행할 수 있음 Guided-TTS Classifier guidance를 위해 개별적으로 train된 phoneme classifier와 unconditional diffusion model을 결합 Unconditional diffusion model은 untranscribed speech data로부터 context 없이 음성을 생성하는 방법을 학습 Phoneme classifier를 사용하여 diffusion model의 generati..
ZET-Speech: Zero-Shot Adaptive Emotion-Controllable Text-to-Speech Synthesis with Diffusion and Style-based Models Emotional Text-to-Speech는 natural 하고 emotional한 음성을 합성할 수 있음 BUT, 기존 방식들은 unseen speaker에 대한 generalization 없이 seen speaker만을 대상으로 함 ZET-Speech 짧은 speech segment와 target emotion label을 사용하여 any-speaker zero-shot adaptive text-to-speech 수행 Zero-shot adaptive model이 emotional speech를 ..
StyleTTS2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language ModelsHuman-level text-to-speech를 위해 large speech language model (SLM)을 활용할 수 있음StyleTTS2Diffusion model을 통해 style을 latent random variable로 모델링하여 reference speech 없이 text에 적합한 style을 생성End-to-End training을 위해 differentiable duration modeling이 가능한 discriminator를 도입하고 large pre..
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Generative Adversarial Network는 빠른 합성을 보장하면서 고품질의 음성을 생성할 수 있음 SpecDiff-GAN Discriminator 이전에 Gaussian noise를 real/fake sample 모두에 inject 하는 forward diffusion process를 통해 training stability를 향상 Discriminator task를 더 어렵게 만드는 spectrally-shaped noise 분포를 도입 논문 (ICASSP 2024) : Paper Link 1. Introduction Audio 합성은 주어..