반응형
SiTok: Scaling Speech Tokenizers with Diffusion AutoEncodersSpeech tokenizer는 semantic/acoustic encoding trade-off와 low bitrate 활용의 한계가 있음SiTokSupervision을 통해 semantic-rich representation을 jointly learning 하고 diffusion을 통해 high-fidelity audio reconstruction을 지원추가적으로 1.6B parameter로 model을 scale 하고 2M hours의 speech dataset으로 training논문 (ICLR 2026) : Paper Link1. Introduction기존 speech tokenizer는 e..
Paper/Neural Codec
2026. 4. 17. 12:37
반응형
