반응형
[Paper 리뷰] PortaSpeech: Portable and High-Quality Generative Text-to-Speech
PortaSpeech: Portable and High-Quality Generative Text-to-Speech Non-autoregressive Text-to-Speech 모델은 고품질의 음성 합성이 가능하지만 몇 가지 한계가 있음 - VAE는 작은 모델 size로도 long-range semantic feature를 capture 할 수 있지만, 종종 부자연스러운 결과를 생성함 - Normalizing Flow는 frequency bin-wise detail을 reconstruct 하는데 좋지만, 많은 parameter 수를 필요로 함 PortaSpeech Lightweight architecture를 사용하여 고품질의 음성 합성을 지원하는 TTS 모델 Enhanced prior를 포함한 ligh..
Paper/TTS
2024. 3. 2. 12:13
반응형