반응형

ELLA-V: Stable Neural Codec Language Modeling with Alignment-Guided Sequence RecordingAcoustic, linguistic prompt에 기반한 language model은 zero-shot audio synthesis에서 우수한 성능을 보임ELLA-VPhoneme level에서 synthesized audio에 대한 fine-grained control을 지원Acoustic token ahead에 phoneme token이 appear 할 때 acoustic, phoneme token sequence를 interleaving논문 (AAAI 2025) : Paper Link1. IntroductionZero-shot Text-to-Spe..
Paper/Language Model
2025. 5. 25. 09:06
반응형