반응형
ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated InferenceDiffusion-based non-autoregressive Text-to-Speech model은 text-speech alignment와 high computational overhead의 문제점이 있음ARCHI-TTSText, audio 간의 robust temporal, semantic consistency를 보장하는 dedicated semantic aligner를 도입 Denoising step에서 encoder feature를 reuse 하여 추론 속도를 향상논문 (ICASSP 202..
Paper/TTS
2026. 2. 13. 12:47
반응형
