반응형
DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit AlignmentSinging Voice Synthesis는 data scarcity와 model scalability의 한계가 있음DiTSingerFixed melody와 LLM-generated lyrics를 pairing 하여 high-quality singing dataset을 구성추가적으로 RoPE, QK-norm을 기반으로 Diffusion Transformer의 scalability를 확장하고 implicit alignment mechanism을 도입논문 (ICASSP 2026) : Paper Link1. IntroductionSinging Vo..
Paper/SVS
2026. 3. 9. 10:47
반응형
