반응형
[Paper 리뷰] TacoLM: Gated Attention Equipped Codec Language Model are Efficient Zero-shot Text-to-Speech Synthesizers
TacoLM: Gated Attention Equipped Codec Language Model are Efficient Zero-shot Text to Speech SynthesizersNeual codec language model은 zero-shot text-to-speech에서 우수한 성능을 보이고 있음BUT, autoregressive nature와 text-audio 간의 implicit alignment로 인해 속도의 한계가 있음TacoLMTraining/inference 속도를 향상하고 model size를 줄이기 위해 gated attention mechanism을 도입추가적으로 각 decoder layer마다 gated cross-attention layer를 적용하여 합성 품질과 ef..
Paper/Language Model
2024. 7. 16. 10:40
반응형