[Paper 리뷰] DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

티스토리 뷰

Paper/SVS

[Paper 리뷰] DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

feVeRin 2026. 3. 9. 10:47

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

Singing Voice Synthesis는 data scarcity와 model scalability의 한계가 있음
DiTSinger
- Fixed melody와 LLM-generated lyrics를 pairing 하여 high-quality singing dataset을 구성
- 추가적으로 RoPE, QK-norm을 기반으로 Diffusion Transformer의 scalability를 확장하고 implicit alignment mechanism을 도입
논문 (ICASSP 2026) : Paper Link

1. Introduction

Singing Voice Synthesis (SVS)는 music score, lyrics로부터 singing voice를 생성함
- 특히 DiffSinger와 같은 diffusion-based model을 활용하면 SVS 성능을 크게 향상할 수 있음
- BUT, SVS는 여전히 다음의 한계점이 존재함:
  1. Synthesis quality에 대한 scaling effect가 unclear 하고 training data를 expand 하기 어려움
  2. Robust phoneme-to-acoustic alignment가 필요함

-> 그래서 SVS model의 위 한계점들을 개선한 DiTSinger를 제안

DiTSinger
- LLM-driven large-scale dataset을 구축하고 Rotary Positional Encoding (RoPE), QK-normalization 기반의 Diffusion Transformer (DiT) architecture를 적용
- 각 phoneme attention을 해당 character span으로 constrain 하는 implicit cross-attention mechanism을 도입

< Overall of DiTSinger >

DiT 기반의 scalable architecture와 implicit alignment를 활용한 SVS model
결과적으로 기존보다 우수한 성능을 달성

2. Method

- Preliminary

DDPM은 gradual noising process를 reverse 하여 data를 synthesize 함
- 먼저 forward process는 clean sample $\mathbf{x}_{0}$를 다음과 같이 corrupt 함:
  (Eq. 1) $ q(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t};\sqrt{1-\beta_{t}}\mathbf{x}_{t-1}, \beta_{t}I)$
  - $\mathcal{N}(\cdot)$ : Gaussian distribution, $\beta_{t}$ : noise schedule
- Reverse process는 $c$로 condition 된 neural network $\epsilon_{\theta}(\cdot)$로 modeling 되어 added noise를 predict 함:
  (Eq. 2) $\mathcal{L}_{simple}=\mathbb{E}_{\mathbf{x}_{0},\epsilon,t}\left[ \left|\left| \epsilon-\epsilon_{\theta}(\mathbf{x}_{t},t,c)\right|\right|_{2}^{2}\right]$
- Classifier-Free Guidance (CFG)는 fidelity를 향상하기 위해 사용됨:
  (Eq. 3) $\epsilon_{guided}=\epsilon_{\theta}(\mathbf{x}_{t})+w\cdot \left(\epsilon_{\theta}(\mathbf{x}_{t},c)-\epsilon_{\theta}(\mathbf{x}_{t})\right)$
  - $w$ : guidance strength
- Latent Diffusion Model (LDM)은 $\mathbf{x}_{0}$를 latent representation $\mathbf{z}$로 encoding 하여 computational efficiency를 향상함:
  (Eq. 4) $\mathbf{z}=\text{Enc}(\mathbf{x}_{0}),\,\,\,\hat{\mathbf{x}}_{0}=\text{Dec}(\mathbf{z})$

- Data Construction Pipeline

기존의 high-quality singing dataset은 scale의 한계가 있으므로 SVS model은 다양한 pitch contour, phonetic variation을 반영하기 어려움
- 이때 training data를 fixed melody의 small set으로 constraining 하고 lyrics, vocal만 varying 하면 melodic alignment와 acoustic modeling의 complexity를 줄일 수 있음
  - 이를 통해 SVS model은 underlying melodic structure를 internalize 하여 다양한 lyrical input에 대해서도 robust melody-conditioned synthesis를 보장할 수 있음
- 결과적으로 논문은 Recording-fitting, Data Expansion phase로 구성된 2-stage data construction pipeline을 도입함
  1. Recording-fitting phase에서는 fixed melody의 small set과 LLM-generated lyrics variant를 pairing 함
    - 이후 professional singer가 clean vocal을 record 하여 melody-specific SVS model인 PseudoSinger를 training 하기 위한 compact dataset을 구축함
  2. Data Expansion phase에서는 각 trained PseudoSinger를 활용하여 large-scale singing data를 생성함
    - New lyrics는 LLM을 통해 생성되고, PseudoSinger를 통해 singing voice로 render 됨

- Architecture

DiTSinger는 Transformer-based latent diffusion model로써, 각 denoising step $t$에서 mel-spectrogram noise $\epsilon$을 predict 함
Conditioning Inputs
- DiTSinger는 fine-/coarse-grained information을 포함한 hierarchical conditioning input을 사용함
- Fine-grained input (pitch $\mathbf{p}$, phoneme $\mathbf{ph}$, word duration $\mathbf{w}$, slur indicate $\mathbf{sl}$)는 Transformer-based condition encoder $\text{Enc}_{cond}$를 통해 embed, sum, encode 됨:
  (Eq. 5) $\mathbf{h}_{local}=\text{Enc}_{cond}\left(\mathbf{E}_{p}(\mathbf{p})+\mathbf{E}_{ph}(\mathbf{ph})+\mathbf{E}_{w}(\mathbf{w})+\mathbf{E}_{sl}(\mathbf{sl}) \right)$
  - $\mathbf{E}_{*}(\cdot)$ : learnable embedding
- Speaking identity와 같은 coarse-grained input은 MLP를 통해 embed 된 다음, AdaLN을 통해 inject 됨
  - Timbre는 reference encoder가 아닌 learnable embedding table로 represent 됨
Tokenization and Denoising
- Waveform은 mel-spectrogram으로 convert 되고 convolutional downsampler를 통해 latent로 tokenize 됨
  - 각 timestep $t$에서는 Gaussian noise가 add 되어 diffusion training을 위한 $\mathbf{x}_{t}$를 얻음
- Denoising network는 $N$ DiTBlock을 stack 하여 구성되고, 각 block은 3개의 parallel branch를 가짐:
  1. RoPE, QK-Norm을 포함한 Multi-Head Self-Attention (MHSA)
  2. Fine-grained phoneme condition을 incorporate 한 Masked Multi-Head Cross-Attention (MHCA)
  3. Point-wise Feed Forward Network
- 여기서 모든 branch는 speaker embedding에 condition 된 AdaLN을 사용하고, residual은 learnable parameter $\alpha_{1},\alpha_{2},\alpha_{3}$로 scaling 됨
Implicit Alignment Mechanism
- 논문은 costly phoneme-level duration labeling을 개선하기 위해 implicit alignment mechansim을 도입함
- 먼저 각 phoneme은 known start time $t_{start}$, duration $d_{char}$를 포함한 character의 temporal span을 inherit 하고 tunable offset $\delta$ 만큼 extend backward 됨:
  (Eq. 6) $\tilde{t}_{start}=t_{start}-\min(\delta, d_{char},d_{prev}),\,\,\, t_{end}=t_{start}+d_{char}$
  - $d_{prev}$ : preceding character의 duration
- Resulting interval $[\tilde{t}_{start}, t_{end}]$는 additive attention bias $M\in \mathbb{R}^{L_{mel}\times L_{ph}}$를 construct 하기 위한 valid interval을 정의함:
  (Eq. 7) $M_{i,j}=\left\{\begin{matrix}
  0, & \text{if}\,\,t_{i}\in[\tilde{t}_{start}^{(j)},t_{end}^{(j)}] \\
  -\infty, & \text{otherwise} \\
  \end{matrix}\right.$
- $Q\in\mathbb{R}^{L_{mel}\times d}$를 mel token에서 project 된 query, $K,V\in\mathbb{R}^{L_{ph}\times d}$를 fused local condition representation $\mathbf{h}_{local}$에서 project된 key, value라고 하자
  1. 그러면 masked cross-attention은:
    (Eq. 8) $\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^{\top}}{\sqrt{d}}+M\right)V$
  2. 해당 fixed mask는 training/inference 모두에서 consistently apply 됨
    - Training 시에는 model이 coarse-timing constraint 하에서 soft, localized alignment를 학습하도록 guide 하고 추론 시에는 temporal constraint를 통해 stable, consistent attention pattern을 보장함

3. Experiments

- Settings

Dataset : M4Singer
Comparisons : DiffSinger, StyleSinger, TCSinger

- Results

전체적으로 DiTSinger의 성능이 가장 우수함

DiTSinger는 model size, dataset scale 측면에서 strong scalability를 보임

Effectiveness of PseudoSinger
- 20 group의 PseudoSinger를 사용할 때 최적의 성능을 달성함

'Paper > SVS' 카테고리의 다른 글

[Paper 리뷰] TCSinger2: Customizable Multilingual Zero-Shot Singing Voice Synthesis (0)	2025.06.27
[Paper 리뷰] ExpressiveSinger: Multilingual and Multi-Style Score-based Singing Voice Synthesis with Expressive Performance Control (0)	2025.06.13
[Paper 리뷰] CSSinger: End-to-End Chunkwise Streaming Singing Voice Synthesis System based on Conditional Variational Autoencoder (0)	2025.06.03
[Paper 리뷰] TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching (0)	2025.06.01
[Paper 리뷰] Everyone-Can-Sing: Zero-Shot Singing Voice Synthesis and Conversion with Speech Reference (0)	2025.05.16

최근에 올라온 글

최근에 달린 댓글

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

1. Introduction

2. Method

- Preliminary

- Data Construction Pipeline

- Architecture

3. Experiments

- Settings

- Results

'Paper > SVS' 카테고리의 다른 글

티스토리툴바