티스토리 뷰

반응형

IPACue-TTS: Integrating Prosody and Articulatory Cues in Conditional Flow Matching for Multilingual Zero-Shot TTS


  • Native-sounding cross-lingual, code-mixed Text-to-Speech model이 필요함
  • IPACue-TTS
    • Pronunciation, prosodic accuracy를 향상하기 위해 articulatory phoneme refinement를 incorporate
    • Flow-based framework를 통해 fine-grained acoustic, prosodic feature를 explicitly modeling
  • 논문 (ICASSP 2026) : Paper Link

1. Introduction

  • 기존 Text-to-Speech (TTS) model은 cross-lingual, code-switching 환경에서 accent leakage가 발생함
    • 한편 speech-production cue를 incorporate 하는 articulatory-informed TTS를 활용하면 clarity를 향상할 수 있음
    • 추가적으로 대부분의 TTS model은 coarse global embedding이나 learned style token을 활용해 style을 modeling 하므로 linguistic content를 disentangle 하기 어려움
      - 이때 jitter, formant frequency, shimmer 등과 같은 temporal acoustic parameter를 도입하면 acoustic characteristic에 대한 low-level description을 향상할 수 있음

-> 그래서 articulatory cue와 temporal acoustic feature를 활용한 IPACue-TTS를 제안

 

  • IPACue-TTS
    • Articulatory cue에 기반한 phonological rule을 도입하여 naturalness를 향상하고 Text Encoder를 language embedding에 condition 하여 language-specific articulatory variation을 capture
    • Temporal acoustic, prosodic feature를 Conditional Flow에 incorporate 하여 fine-grained acoustic information을 modeling

< Overall of IPACue-TTS >

  • Articulatory cue를 활용한 Conditional Flow Matching-based multilingual code-switching TTS model
  • 결과적으로 기존보다 우수한 성능을 달성

2. Integrating Articulation and Prosody

  • Articulatory information과 prosodic pattern을 incorporate 하면 naturalness를 향상할 수 있으므로, 논문은 speech articulation에서 derive 된 phonological rule을 구성함

- Closure Phoneme Modeling for Stop Consonants

  • Aspirated, unaspirated stop consonant ($\texttt{/p/}$, $\texttt{/t/}$, $\texttt{/}\texttt{k}^\texttt{h}\texttt{/}$)는 closure 이후에 release burst가 이어지는 2-phase articulation을 가짐
    • 이때 기존의 grapheme-to-phoneme conversion은 release phase만 capture 하므로 under-articulated, short stop segment를 생성할 수 있음
    • 따라서 논문은 각 stop consonant에 대해 explicit closure phoneme을 도입하여 closure phase를 modeling 함
      - 이를 통해 voicing contrast perception을 향상하고 natural temporal pattern을 제공할 수 있음

- Explicit Representation of Geminated Sounds

  • Gemination은 stop의 경우 longer closure, fricative, nasal의 경우 sustained constriction으로 articulate 되고 surrounding vowel의 shortening으로 이어짐
    • 즉, phoneme을 두 번 repeat 되는 경우, model은 prolonged closure/frication에 대한 single articulatory gesture를 independent two phoneme으로 취급할 수 있음
    • 이를 해결하기 위해 논문은 lengthened sound의 temporal, spectral continuity를 encode 하는 dedicated geminate phone을 도입함

- Temporal Acoustic and Prosody Modeling

  • 논문은 articulatory cue 외에도 formant detail, energy, shimmer, Hammarberg index, spectral tilt와 같은 low-level temporal acoustic descriptor를 explicit conditioning variable로 추가함
    • 해당 descriptor를 통해 model은 intonation, rhythm, stress에 대한 fine-grained temporal, spectral variation을 capture 하고 naturalness와 expressiveness를 향상할 수 있음
    • 특히 prosody descriptor에 대한 explicit conditioning을 통해 speaker generalization을 위한 finer-level speaker-specific characteristic을 preserve 할 수 있음

Overview

3. Architecture

  • IPACue-TTS에서 text는 $\texttt{phonemizer}$를 통해 International Phonetic Alphabet (IPA)로 convert 됨
    • Articulatory cue는 앞선 phonological rule을 따라 IPA에 적용되고, 각 IPA는 128-dimensional non-trainable embedding으로 convert 됨
      - Phoneme positional information은 Rotational Positional Embedding (RoPE)를 통해 incorporate 됨
    • 여기서 phoneset는 language 간에 공통이므로, language에 condition 된 Text Encoder를 사용하여 language 간 articulatory variation을 capture 함
      1. 이를 위해 IPA embedding과 함께 16-dimensional fixed embedding을 Text Encoder에 전달함
      2. Text Encoder는 ConvNeXt module로 구성되고, 얻어진 linguistic representation은 target mel-spectrogram의 frame 수에 맞게 filler token embedding과 concatenate 됨
      3. Mel-spectrogram은 target speech에서 40ms frame length, 20ms frame shift, 1024 FFT length를 사용하여 얻어지고, temporal acoustic, prosodic parameter는 $\texttt{Opensmile}$을 통해 추출됨
    • IPACue-TTS는 conditional flow matching을 기반으로 mel-spectrogram의 neighbor segment를 condition으로 segment를 predict 하는 infilling task로 training 됨
      1. Acoustic reference는 temporal acoustic, prosodic parameter와 mel-spectrogram을 concatenate 한 다음, Conditional Flow module을 통해 modeling 됨
      2. 이때 predict 할 acoustic reference segment는 randomly mask 되고, F5-TTS와 같이 normalizing flow의 0-th step에서 acoustic reference와 동일한 dimension의 noise input이 initialize 됨
      3. Filled linguistic representation, masked acoustic reference, noise input은 concatenate 되어 Diffusion Transformer (DiT) module에 전달되고, masked segment인 acoustic target을 predict 함
      4. 이후 predicted output에 inverse mask를 적용하여 masked region에 대한 loss를 compute 함
    • 추론 시에는 reference speech와 text가 concatenate 되어 전달됨
      1. Reference speech에서 추출된 acoustic reference는 unmasked segment로 사용되고, average phone duration으로 compute 된 approximate length의 mask를 filling task에 활용함
      2. Acoustic target은 16-step으로 predict 되고 generated mel-spectrogram은 pre-trained Vocos vocoder를 통해 reconstruct 됨

Inference

4. Experiments

- Settings

- Results

  • 전체적으로 IPACue-TTS의 성능이 가장 우수함

Model 성능 비교

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Total
Today
Yesterday