반응형
Factorized RVQ-GAN for Disentangled Speech TokenizationBottleneck을 factorize 하는 neural codec을 구성할 수 있음HACPhoneme-level structure를 위한 pre-trained speech encoder와 lexical cue를 위한 text-based encoder의 objective를 활용하여 knowledge distillation objective를 구성Factorized bottleneck을 통해 phoneme align, word-level semantic에 대한 disentangled token set을 생성논문 (INTERSPEECH 2025) : Paper Link1. IntroductionNeural Sp..
Paper/Neural Codec
2025. 9. 22. 17:01
반응형
