티스토리 뷰

반응형

TED-TTS: Training-Free Intra-Utterance Emotion and Duration Control for Text-to-Speech Synthesis


  • Controllable Text-to-Speech는 여전히 fine-grained intra-utterance expression 측면에서 한계가 있음
  • TED-TTS
    • Causal masking과 monotonic stream alignment를 combine 한 segment-aware emotion conditioning를 도입
    • 추가적으로 local duration embedding steering과 global EOS logit modulation을 combine 한 segment-aware duration steering strategy를 적용
  • 논문 (ACL 2026) : Paper Link

1. Introduction

  • 기존 Text-to-Speech (TTS) model의 controllability는 utterance-level로 제한되어 있으므로 human speech의 dynamic expression을 반영하기 어려움
    • 이를 해결하기 위해 NautrualSpeech와 같이 text에서 phoneme-/frame-level affective attribute를 directly predict 하거나 expressive pattern을 guide 하는 reference speech를 활용할 수 있음
    • BUT, 해당 방식은 large-scale time-aligned annotated speech dataset이나 multi-stage pipeline을 요구함

Training-Free Framework

-> 그래서 model re-training 없이 stable segment-level emotion transition을 지원할 수 있는 TED-TTS를 제안

 

  • TED-TTS
    • Multi-emotion control을 위해 causal masking과 Monotonic Stream Alignment를 combine한 segment-aware emotion conditioning을 도입
    • Local duration embedding steering과 global EOS logit modulation에 기반한 segment-aware duration steering strategy를 적용
    • 추가적으로 Multi-Emotion Duration-annotated text dataset (MED-TTS)를 구축

< Overall of TED-TTS >

  • Segment-aware emotion conditioning, segment-aware duration steering을 활용한 training-free controllable TTS model
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

  • TED-TTS는 IndexTTS2 architecture를 기반으로 Multi-Emotion and Duration-annotated text dataset인 MED-TTS dataset으로 training 됨

Overview

- Segment-Aware Emotion Conditioning

  • Text-to-Semantic (T2S) module은 text, control embedding에 condition된 autoregressive semantic token prediction task로 formulate 됨
    • 먼저 input text가 주어지면 $M$ user-defined semgent $\mathbf{X}=\{X_{1},X_{2},...,X_{M}\}$으로 decompose 하고, 각 segment $X_{m}$에는 condition embedding $\mathbf{C}_{m}=\{\mathbf{I},\mathbf{E}_{m}\}$을 assign 함
      - $\mathbf{I}$ : fixed speaker identity embedding, $\mathbf{E}_{m}$ : segment-specific emotion condition
    • Autoregressive T2S에서 semantic token은 explicit segment boundary 없이 continuous stream으로 생성되므로, text segment의 semantic continuity를 preserve 하면서 segment-level condition을 적용하기 어려움
    • 이를 해결하기 위해 논문은 2D causal attention mask와 Monotonic Stream Alignment를 combine 하여 smooth intra-utterance emotion transition을 수행함
  • 2D Causal Attention Mask
    • 2D causal attention mask는 condition visibility를 semantic context와 disentangle 하여 segment-level condition의 misalignment 문제를 해결함
    • 해당 mask는 segment boundary에 대해 text, semantic token의 standard causal attention을 preserve 하면서 condition embedding에 대한 access는 strictly restricting 하여 globally coherent semantic generation을 지원함
      1. $m$-th segment에 속하는 임의의 token에 대해, token은 해당 segment의 conditioning embedding $\mathbf{C}_{m}$에만 attend 하고 다른 condition embedding $\{\mathbf{C}_{j}|j\neq m\}$은 모두 mask out 함
        - 추가적으로 각 condition embedding $\mathbf{C}_{m}$이 다른 condition embedding에 attend 하는 것을 prevent 하여 cross-condition information leakage를 방지함
      2. 즉, emotional style은 locally active condition에 의해 결정되는 반면 semantic content는 standard causal context를 통해 globally visible 하게 유지됨
    • BUT, 2D causal attention mask를 적용하기 위해서는 generated semantic token과 source text token 간의 alignment가 필요함
      - 따라서 논문은 Bayesian-style alignment tracking method인 Monotonic Stream Alignment (MSA)를 도입함
  • Monotonic Stream Alignment (MSA)
    • $\mathbf{A}_{i}\in\mathbb{R}^{L\times H\times T}$는 current semantic token $\mathbf{s}_{i}$에서 $L$ layer, $H$ head의 $T$ text token에 대한 raw attention map이고, 이때 $\mathbf{A}^{(l,h)}_{i}$는 head $(l,h)$에 대한 attention vector와 같음
    • Online autoregressive decoding 시 MSA는 $\mathbf{s}_{i}$의 alignment를 tracking 하기 위해 text position에 대한 belief distribution을 maintain 함
    • $T$ text token에 대한 prior distribution $\hat{\pi}_{i}$, posterior distribution $\pi_{i}$이 주어진다고 하자
      1. 각 decoding step $i$에서 MSA는 previous step의 posterior $\pi_{i-1}$을 monotonic transition operator $\mathcal{P}$를 사용해 text sequence를 따라 propagate 하는 Predict step을 수행함
        - 해당 propagation은 strong temporal monotonicity를 encode 하는 prior distribution $\hat{\pi}_{i}$를 생성함
      2. Monotonic prior $\hat{\pi}_{i}$를 얻은 다음, MSA는 Select step에서 각 head의 attention distribution이 predicted alignment와 일치하는지를 계산하여 most reliable attention head를 select 함:
        (Eq. 1) $(l^{*},h^{*})=\arg\max_{l,h}\hat{\pi}_{i}^{\top}\log \mathbf{A}_{i}^{(l,h)}$
        - $\mathbf{A}^{(l,h)}_{i}$ : head $(l,h)$에 대한 attention vector
        - Resulting head $(l^{*},h^{*})$는 subsequent update에서 most reliable attention observation을 제공함
      3. Update step에서 MSA는 selected attention observation $\mathbf{A}^{(l^{*}, h^{*})}_{i}$와 monotonic prior $\hat{\pi}_{i}$를 combine해 posterior alignment belief를 얻음:
        (Eq. 2) $ \pi_{i}=\frac{\hat{\pi}_{i}\odot \mathcal{G}_{\sigma}\left(\mathbf{A}_{i}^{(l^{*}, h^{*})}\right)}{Z}$
        - $\odot$ : element-wise multiplication, $\mathcal{G}_{\sigma}(\cdot)$ : Gaussian smoothing operator, $Z$ : normalization factor
        - 해당 update는 monotonicity를 보장하면서 real-time attention evidence를 incorporate 하여 stable alignment trajectory $\pi_{i}$를 생성함

Monotonic Stream Alignment

- Segment-Aware Duration Steering

  • 논문은 fully training-free autoregressive setting에서 multi-segment duration control을 지원하기 위해 emotion control framework를 추가적으로 extend 함
  • Local Duration Embedding Steering
    • IndexTTS2를 따라 duration control을 semantic token length로 index 된 dedicated duration embedding에 condition 하고 embedding table $\mathbf{W}_{dur}$를 semantic positional embedding table $\mathbf{W}_{sem}$과 tie 함
    • $M$ segment와 desired duration $\mathbf{d}=\{d_{1},d_{2},...,d_{M}\}$을 가진 utterance가 주어지면, 각 segment duration은 codec token rate에 따라 semantic token 수 $\hat{\mathbf{d}}=\{\hat{d}_{1},\hat{d}_{2},...,\hat{d}_{m}\}$으로 convert 됨
      1. 이후 segment-level target을 cumulative token length $\hat{D}_{i}=\sum_{k=1}^{i}\hat{d}_{k}$로 accumulate 하고 segment-wise initial duration embedding을 $\mathbf{D}_{i}=\mathbf{W}_{dur}[\hat{D}_{i}]$와 같이 retrieve 함
      2. 그런 다음 segment-level conditioning input $\mathbf{C}_{m}$으로 concatenate 하여 subsequent generation을 guiding 함
    • Autoregressive decoding 시 actual semantic token generation speed는 user-specific target과 deviate 할 수 있음
      - 해당 deviation을 correct 하기 위해, 논문은 adaptive duration table lookup을 기반으로 duration embedding을 dynamically update 하는 local duration embedding steering mechanism을 도입함
    • 각 decoding step $i$에서 MSA를 활용해 current aligned text position을 estimate 하고 active segment 내에서 normalized progress indicator (text progress $r_{text}$, semantic progress $r_{sem}$)를 compute 함
      1. 해당 discrepancy $\Delta r=r_{text}-r_{sem}$가 positive value이면 semantic generation이 lagging 하다는 것을 의미하고, 이때 semantic token length는 proportional controller를 통해 adjust 됨:
        (Eq. 3) $ \Delta\hat{D}_{i}=\text{clip}\left(\lfloor k\cdot \Delta r\rceil, -\Delta_{\max}, \Delta_{\max}\right)$
        - $k$ : correction strength, $\lfloor \cdot \rceil$ : nearest integer로의 rounding, $\Delta_{\max}$ : maximum adjustment
      2. Effective segment-wise target은 $\hat{D}_{i}+\Delta\hat{D}_{i}\rightarrow \hat{D}_{i}^{'}$과 같이 update 되고, duration table $\mathbf{W}_{dur}$는 active segment에 대해서만 re-query 되어 updated duration embedding $\mathbf{D}'_{i}$를 얻음
        - 이때 다른 segment의 duration embedding은 unchange 됨
  • Global EOS Steering
    • Autoregressive decoding에서 End-to-Semantic (EOS) token은 sequence termination과 duration을 결정함
    • Local duration embedding steering은 local generation pace를 regulate 할 수 있지만, decoding end를 explicitly control하지는 않으므로, 논문은 global EOS strategy를 도입하여 sequence termination을 결정함
    • 이를 위해 EOS logit에 adaptive bias를 적용함
      1. Pre-mature termination을 방지하기 위해 모든 non-final segment에서는 EOS generation을 suppress 하고
      2. Final segment에서는 remaining semantic budget에 따라 EOS logit을 progressively adjust 하여 EOS emission을 smoothly encourage 함

3. Experiments

- Settings

MED-TTS Dataset

- Results

  • 전체적으로 TED-TTS의 성능이 가장 우수함

Model 성능 비교

  • 다양한 duration scaling에 대해서도 우수한 TTS 성능을 보임

Duration Scaling 별 성능

  • Ablation Study
    • 각 component는 성능 향상에 유효함

Ablation Study

  • Monotonic Stream Alignment를 활용하면 precise emotion transition을 얻을 수 있음

Alignment Path

  • TED-TTS는 낮은 token error rate를 보임

Token Error Rate

  • Segment-aware emotion conditioning (S2), segment-aware duration steering (S3)은 efficiency trade-off를 가짐

Efficiency

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/07   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday