반응형
[Paper 리뷰] FastSpeech2: Fast and High-Quality End-to-End Text to Speech
FastSpeech2: Fast and High-Quality End-to-End Text to Speech FastSpeech와 같은 non-autoregressive Text-to-Speech (TTS) 모델은 빠르게 음성합성이 가능함 FastSpeech는 duration prediction과 knowledge distillation을 위해 autoregressive teacher 모델에 의존적임 Teacher-student distillation 과정이 복잡하고 시간 소모적임 Teacher 모델에서 추출한 duration이 정확하지 않고 target mel-spectrogram의 단순함으로 인해 정보 손실이 발생함 FastSpeech 2 Teacher의 단순화된 output 대신 ground-tru..
Paper/TTS
2023. 7. 21. 12:23
반응형