PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Denoising diffusion probabilistic model은 data densitiy의 gradient를 추정하여 고품질의 sample을 생성할 수 있음 일반적으로 prior noise를 standard Gaussian 분포로 정의하지만, 해당하는 data 분포는 더 복잡할 수 있음 - Data와 prior 사이의 discrepancy로 인해 data sample에서 prior noise를 제거하는 것이 어려워짐 PriorGrad Conditional information 기반의 data statistics로부터 도출된 ad..
DiffVoice: Text-to-Speech with Latent Diffusion Text-to-Speech 모델의 성능 향상을 위해 latent diffusion을 활용할 수 있음 DiffVoice Adversarial training을 활용한 variational autoencoder를 통해 speech signal을 phoneme-rate representation으로 encode Diffusion model을 통한 latent representation과 duration의 joint modelling 논문 (ICASSP 2023) : Paper Link 1. Introduction Diffusion model은 합성 작업에서 뛰어난 성능을 보이고 있음 Text-to-Speech (TTS)에서는..
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Denoising diffuion probabilistic model과 generative score matching은 복잡한 data 분포를 모델링하는데 뛰어남 Grad-TTS Encoder에 의해 예측된 noise를 점진적으로 변환하고 Monotonic Alignment Search를 통해 text input에 맞춰 정렬된 mel-spectrogram을 생성 Stochastic differential equation을 통해 noise로부터 data를 reconstruct 논문 (ICML 2021) : Paper Link 1. Introduction Text-to-Speech (TTS) 모델은 ..
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral ShapingDenoising Diffusion Probabilistic Model을 사용하는 neural vocoder는 주어진 acoustic feature에 대한 diffusion noise 분포를 조절함SpecGradTime-varying spectral envelope가 conditioning log mel-spectrogram에 가까워지도록 diffusion noise를 조절하는 neural vocoderTime-varying filter를 통한 high-frequency band에서의 품질 상승논문 (INTERSPEECH 2022) ..
AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration Diffusion model은 이미지 생성을 위해 많은 수의 time step을 필요로 함 서로 다른 model은 추론 시간을 가속화하는 서로 다른 최적의 time step을 가질 수 있음 AutoDiffusion 추가적인 학습 없이 diffusion model에 대한 최적의 time step과 architecture를 search 가능 가능한 모든 time step과 다양한 architecture에 대한 unified search space 구성 최적의 solution을 찾기 위한 two-stag..
InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training Denoising diffusion probabilistic model은 추론 과정에서 많은 반복이 필요하므로 추론 속도가 느림 추론 속도 향상을 위해 추론 schedule을 최적화하는 것이 필요 - However, 일반적으로 추론과 학습 process는 개별적으로 최적화됨 InferGrad 추론 process를 학습에 통합한 vocoder용 diffusion model 학습 중 추론 schedule에 따라 reverse process를 통해 random noise로부터 data를 생성하여, 생성된 data와 실제의 차이를 최소화 논문 (ICASSP ..