반응형
[Paper 리뷰] FastSpeech: Fast, Robust and Controllable Text to Speech
FastSpeech: Fast, Robust and Controllable Text to Speech 기존의 Text-to-Speech (TTS) 모델은 text에서 mel-spectrogram을 생성한 다음, WaveNet과 같은 vocoder를 사용해 mel-spectrogram에서 음성을 합성함 End-to-end TTS 모델은 추론 속도가 느리고 합성된 음성이 robust 하지 않고, controllability (voice speed, prosody control)가 떨어짐 FastSpeech Mel-spectrogram을 병렬로 생성하는 transformer 기반 feed-forward network Phoneme duration 예측을 위해 encoder-decoder 기반 teacher 모..
Paper/TTS
2023. 7. 23. 11:56
반응형