반응형
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/CONog/btsona7y0BU/nB3eKsB4fbK537yMlSzGkk/img.png)
FastSpeech2: Fast and High-Quality End-to-End Text to Speech FastSpeech와 같은 non-autoregressive Text-to-Speech (TTS) 모델은 빠르게 음성합성이 가능함 FastSpeech는 duration prediction과 knowledge distillation을 위해 autoregressive teacher 모델에 의존적임 Teacher-student distillation 과정이 복잡하고 시간 소모적임 Teacher 모델에서 추출한 duration이 정확하지 않고 target mel-spectrogram의 단순함으로 인해 정보 손실이 발생함 FastSpeech 2 Teacher의 단순화된 output 대신 ground-tru..
Paper/TTS
2023. 7. 21. 12:23
반응형