반응형
[Paper 리뷰] ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech
ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-SpeechDiffusion model은 text-to-speech에서 우수한 성능을 보이고 있지만, iterative sampling process로 인해 accleration의 한계가 있음특히 gradient-based model은 높은 품질을 보장하기 위해 수천번의 iteration이 필요함ProDiff고품질의 text-to-speech를 위한 progressive fast diffusion modelSampling accleration 시 발생하는 품질 저하를 방지하기 위해 clean data를 직접 예측하여 desnoising model을 parameterizationDiffu..
Paper/TTS
2024. 5. 4. 12:14
반응형