티스토리 뷰
Paper/TTS
[Paper 리뷰] TED-TTS: Training-Free Intra-Utterance Emotion and Duration Control for Text-to-Speech Synthesis
feVeRin 2026. 6. 30. 12:58반응형
TED-TTS: Training-Free Intra-Utterance Emotion and Duration Control for Text-to-Speech Synthesis
- Controllable Text-to-Speech는 여전히 fine-grained intra-utterance expression 측면에서 한계가 있음
- TED-TTS
- Causal masking과 monotonic stream alignment를 combine 한 segment-aware emotion conditioning를 도입
- 추가적으로 local duration embedding steering과 global EOS logit modulation을 combine 한 segment-aware duration steering strategy를 적용
- 논문 (ACL 2026) : Paper Link
1. Introduction
- 기존 Text-to-Speech (TTS) model의 controllability는 utterance-level로 제한되어 있으므로 human speech의 dynamic expression을 반영하기 어려움
- 이를 해결하기 위해 NautrualSpeech와 같이 text에서 phoneme-/frame-level affective attribute를 directly predict 하거나 expressive pattern을 guide 하는 reference speech를 활용할 수 있음
- BUT, 해당 방식은 large-scale time-aligned annotated speech dataset이나 multi-stage pipeline을 요구함

-> 그래서 model re-training 없이 stable segment-level emotion transition을 지원할 수 있는 TED-TTS를 제안
- TED-TTS
- Multi-emotion control을 위해 causal masking과 Monotonic Stream Alignment를 combine한 segment-aware emotion conditioning을 도입
- Local duration embedding steering과 global EOS logit modulation에 기반한 segment-aware duration steering strategy를 적용
- 추가적으로 Multi-Emotion Duration-annotated text dataset (MED-TTS)를 구축
< Overall of TED-TTS >
- Segment-aware emotion conditioning, segment-aware duration steering을 활용한 training-free controllable TTS model
- 결과적으로 기존보다 우수한 성능을 달성
2. Method
- TED-TTS는 IndexTTS2 architecture를 기반으로 Multi-Emotion and Duration-annotated text dataset인 MED-TTS dataset으로 training 됨

- Segment-Aware Emotion Conditioning
- Text-to-Semantic (T2S) module은 text, control embedding에 condition된 autoregressive semantic token prediction task로 formulate 됨
- 먼저 input text가 주어지면 $M$ user-defined semgent $\mathbf{X}=\{X_{1},X_{2},...,X_{M}\}$으로 decompose 하고, 각 segment $X_{m}$에는 condition embedding $\mathbf{C}_{m}=\{\mathbf{I},\mathbf{E}_{m}\}$을 assign 함
- $\mathbf{I}$ : fixed speaker identity embedding, $\mathbf{E}_{m}$ : segment-specific emotion condition - Autoregressive T2S에서 semantic token은 explicit segment boundary 없이 continuous stream으로 생성되므로, text segment의 semantic continuity를 preserve 하면서 segment-level condition을 적용하기 어려움
- 이를 해결하기 위해 논문은 2D causal attention mask와 Monotonic Stream Alignment를 combine 하여 smooth intra-utterance emotion transition을 수행함
- 먼저 input text가 주어지면 $M$ user-defined semgent $\mathbf{X}=\{X_{1},X_{2},...,X_{M}\}$으로 decompose 하고, 각 segment $X_{m}$에는 condition embedding $\mathbf{C}_{m}=\{\mathbf{I},\mathbf{E}_{m}\}$을 assign 함
- 2D Causal Attention Mask
- 2D causal attention mask는 condition visibility를 semantic context와 disentangle 하여 segment-level condition의 misalignment 문제를 해결함
- 해당 mask는 segment boundary에 대해 text, semantic token의 standard causal attention을 preserve 하면서 condition embedding에 대한 access는 strictly restricting 하여 globally coherent semantic generation을 지원함
- $m$-th segment에 속하는 임의의 token에 대해, token은 해당 segment의 conditioning embedding $\mathbf{C}_{m}$에만 attend 하고 다른 condition embedding $\{\mathbf{C}_{j}|j\neq m\}$은 모두 mask out 함
- 추가적으로 각 condition embedding $\mathbf{C}_{m}$이 다른 condition embedding에 attend 하는 것을 prevent 하여 cross-condition information leakage를 방지함 - 즉, emotional style은 locally active condition에 의해 결정되는 반면 semantic content는 standard causal context를 통해 globally visible 하게 유지됨
- $m$-th segment에 속하는 임의의 token에 대해, token은 해당 segment의 conditioning embedding $\mathbf{C}_{m}$에만 attend 하고 다른 condition embedding $\{\mathbf{C}_{j}|j\neq m\}$은 모두 mask out 함
- BUT, 2D causal attention mask를 적용하기 위해서는 generated semantic token과 source text token 간의 alignment가 필요함
- 따라서 논문은 Bayesian-style alignment tracking method인 Monotonic Stream Alignment (MSA)를 도입함
- Monotonic Stream Alignment (MSA)
- $\mathbf{A}_{i}\in\mathbb{R}^{L\times H\times T}$는 current semantic token $\mathbf{s}_{i}$에서 $L$ layer, $H$ head의 $T$ text token에 대한 raw attention map이고, 이때 $\mathbf{A}^{(l,h)}_{i}$는 head $(l,h)$에 대한 attention vector와 같음
- Online autoregressive decoding 시 MSA는 $\mathbf{s}_{i}$의 alignment를 tracking 하기 위해 text position에 대한 belief distribution을 maintain 함
- $T$ text token에 대한 prior distribution $\hat{\pi}_{i}$, posterior distribution $\pi_{i}$이 주어진다고 하자
- 각 decoding step $i$에서 MSA는 previous step의 posterior $\pi_{i-1}$을 monotonic transition operator $\mathcal{P}$를 사용해 text sequence를 따라 propagate 하는 Predict step을 수행함
- 해당 propagation은 strong temporal monotonicity를 encode 하는 prior distribution $\hat{\pi}_{i}$를 생성함 - Monotonic prior $\hat{\pi}_{i}$를 얻은 다음, MSA는 Select step에서 각 head의 attention distribution이 predicted alignment와 일치하는지를 계산하여 most reliable attention head를 select 함:
(Eq. 1) $(l^{*},h^{*})=\arg\max_{l,h}\hat{\pi}_{i}^{\top}\log \mathbf{A}_{i}^{(l,h)}$
- $\mathbf{A}^{(l,h)}_{i}$ : head $(l,h)$에 대한 attention vector
- Resulting head $(l^{*},h^{*})$는 subsequent update에서 most reliable attention observation을 제공함 - Update step에서 MSA는 selected attention observation $\mathbf{A}^{(l^{*}, h^{*})}_{i}$와 monotonic prior $\hat{\pi}_{i}$를 combine해 posterior alignment belief를 얻음:
(Eq. 2) $ \pi_{i}=\frac{\hat{\pi}_{i}\odot \mathcal{G}_{\sigma}\left(\mathbf{A}_{i}^{(l^{*}, h^{*})}\right)}{Z}$
- $\odot$ : element-wise multiplication, $\mathcal{G}_{\sigma}(\cdot)$ : Gaussian smoothing operator, $Z$ : normalization factor
- 해당 update는 monotonicity를 보장하면서 real-time attention evidence를 incorporate 하여 stable alignment trajectory $\pi_{i}$를 생성함
- 각 decoding step $i$에서 MSA는 previous step의 posterior $\pi_{i-1}$을 monotonic transition operator $\mathcal{P}$를 사용해 text sequence를 따라 propagate 하는 Predict step을 수행함

- Segment-Aware Duration Steering
- 논문은 fully training-free autoregressive setting에서 multi-segment duration control을 지원하기 위해 emotion control framework를 추가적으로 extend 함
- Local Duration Embedding Steering
- IndexTTS2를 따라 duration control을 semantic token length로 index 된 dedicated duration embedding에 condition 하고 embedding table $\mathbf{W}_{dur}$를 semantic positional embedding table $\mathbf{W}_{sem}$과 tie 함
- $M$ segment와 desired duration $\mathbf{d}=\{d_{1},d_{2},...,d_{M}\}$을 가진 utterance가 주어지면, 각 segment duration은 codec token rate에 따라 semantic token 수 $\hat{\mathbf{d}}=\{\hat{d}_{1},\hat{d}_{2},...,\hat{d}_{m}\}$으로 convert 됨
- 이후 segment-level target을 cumulative token length $\hat{D}_{i}=\sum_{k=1}^{i}\hat{d}_{k}$로 accumulate 하고 segment-wise initial duration embedding을 $\mathbf{D}_{i}=\mathbf{W}_{dur}[\hat{D}_{i}]$와 같이 retrieve 함
- 그런 다음 segment-level conditioning input $\mathbf{C}_{m}$으로 concatenate 하여 subsequent generation을 guiding 함
- Autoregressive decoding 시 actual semantic token generation speed는 user-specific target과 deviate 할 수 있음
- 해당 deviation을 correct 하기 위해, 논문은 adaptive duration table lookup을 기반으로 duration embedding을 dynamically update 하는 local duration embedding steering mechanism을 도입함 - 각 decoding step $i$에서 MSA를 활용해 current aligned text position을 estimate 하고 active segment 내에서 normalized progress indicator (text progress $r_{text}$, semantic progress $r_{sem}$)를 compute 함
- 해당 discrepancy $\Delta r=r_{text}-r_{sem}$가 positive value이면 semantic generation이 lagging 하다는 것을 의미하고, 이때 semantic token length는 proportional controller를 통해 adjust 됨:
(Eq. 3) $ \Delta\hat{D}_{i}=\text{clip}\left(\lfloor k\cdot \Delta r\rceil, -\Delta_{\max}, \Delta_{\max}\right)$
- $k$ : correction strength, $\lfloor \cdot \rceil$ : nearest integer로의 rounding, $\Delta_{\max}$ : maximum adjustment - Effective segment-wise target은 $\hat{D}_{i}+\Delta\hat{D}_{i}\rightarrow \hat{D}_{i}^{'}$과 같이 update 되고, duration table $\mathbf{W}_{dur}$는 active segment에 대해서만 re-query 되어 updated duration embedding $\mathbf{D}'_{i}$를 얻음
- 이때 다른 segment의 duration embedding은 unchange 됨
- 해당 discrepancy $\Delta r=r_{text}-r_{sem}$가 positive value이면 semantic generation이 lagging 하다는 것을 의미하고, 이때 semantic token length는 proportional controller를 통해 adjust 됨:
- Global EOS Steering
- Autoregressive decoding에서 End-to-Semantic (EOS) token은 sequence termination과 duration을 결정함
- Local duration embedding steering은 local generation pace를 regulate 할 수 있지만, decoding end를 explicitly control하지는 않으므로, 논문은 global EOS strategy를 도입하여 sequence termination을 결정함
- 이를 위해 EOS logit에 adaptive bias를 적용함
- Pre-mature termination을 방지하기 위해 모든 non-final segment에서는 EOS generation을 suppress 하고
- Final segment에서는 remaining semantic budget에 따라 EOS logit을 progressively adjust 하여 EOS emission을 smoothly encourage 함
3. Experiments
- Settings
- Dataset : MED-TTS
- Comparisons : MaskGCT, F5-TTS, CosyVoice2, IndexTTS2, Spark-TTS

- Results
- 전체적으로 TED-TTS의 성능이 가장 우수함

- 다양한 duration scaling에 대해서도 우수한 TTS 성능을 보임

- Ablation Study
- 각 component는 성능 향상에 유효함

- Monotonic Stream Alignment를 활용하면 precise emotion transition을 얻을 수 있음

- TED-TTS는 낮은 token error rate를 보임

- Segment-aware emotion conditioning (S2), segment-aware duration steering (S3)은 efficiency trade-off를 가짐

반응형
'Paper > TTS' 카테고리의 다른 글
댓글
