티스토리 뷰

반응형

MPE-TTS: Customized Emotion Zero-Shot Text-to-Speech Using Multi-Modal Prompt


  • Multi-modal prompt를 zero-shot Text-to-Speech에 활용할 수 있음
  • MPE-TTS
    • 다양한 prompt에서 emotion information을 추출하기 위해 Multi-Modal Prompt Emotion Encoder를 도입
    • 추가적으로 prosody predictor와 emotion consistency loss를 적용
  • 논문 (INTERSPEECH 2025) : Paper Link

1. Introduction

  • Zero-Shot Text-to-Speech (ZS-TTS)는 unseen style의 speech를 생성하는 것을 목표로 함
    • Speech-based ZS-TTS는 unseen speaker에 대한 speech를 생성하고, 이때 semantic acoustic information을 모두 포함한 speech clip을 사용함
      1. 대표적으로 Meta-StyleSpeech, GenerSpeech는 reference speech clip을 다양한 timbre, emotion, prosody 등을 포함한 style feature로 modeling 함
      2. BUT, feature entanglement로 인해 fine-grained cutomization이 어려움
    • Text-based ZS-TTS는 PromptTTS, InstructTTS와 같이 text description을 prompt로 사용함
      - BUT, specific style에 대한 accurate natural language description을 구성하기 어려움
    • 한편으로 MM-TTS와 같이 multi-modal을 활용한 ZS-TTS model을 구성할 수도 있음
      - BUT, MM-TTS 역시 speech generation 측면에서 여전히 한계가 있음

-> 그래서 text, image, speech의 여러 modality를 활용한 customizable ZS-TTS model인 MPE-TTS를 제안

 

  • MPE-TTS
    • Speech, text, image의 다양한 prompt modality를 지원하고 효과적인 emotion information 추출을 위해 Multi-Modal Prompt Emotion Encoder (MPEE)를 도입
    • Hierarchical disentangling strategy를 적용하여 서로 다른 granularity의 speech feature를 modeling
    • 추가적으로 LLM-like prosody predictor와 Emotion Consistency Loss (ECL)을 사용하여 naturalness를 향상

< Overall of MPE-TTS >

  • 다양한 modality의 prompt를 활용한 zero-shot TTS model
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

  • MPE-TTS는 Multi-Modal Prompt Emotion Encoder (MPEE), diffusion-based acoustic model, LLM-like prosody predictor로 구성됨
    • MPEE는 arbitrary emotion prompt에서 emotion code를 추출함
    • Diffusion-based acoustic model은 target mel-spectrogram을 생성함
      - 구조적으로는 timbre encoder, content encoder, prosody encoder, duration predictor (DP), length regulator (LR), diffusion decoder로 구성됨
    • LLM-like prosody predictor는 local/long-range dependency를 capture 하는 LLM ability를 활용하여 content, emotion, timbre에 기반한 prosody distribution을 fit 함
    • 추론 시에는 주어진 text sequence의 content, reference speech의 timbre, prosody predictor에 의해 predict 된 prosody를 integrate 함

Overview

- Disentangling Strategy

  • Fine-grained customization을 위해서는 content, emotion, timbre, prosody 등을 disentangle 해야 함
    • 이때 각 feature는 coarse-grained, fine-grained feature로 나눌 수 있음:
      1. Coarse-grained Feature
        - 논문은 speech segment 내에서 거의 변하지 않는 timbre, emotion feature를 coarse-grained feature로 취급함
        - 해당 feature는 global vector로 modeling 됨
      2. Fine-grained Feature
        - Content, prosody feature는 fine-grained feature로 취급됨
        - 특히 content의 경우 frame-related, temporal 하므로 semantic accuracy를 보장하기 위해 fine-grained modeling이 필요하고, prosody 역시 high dynamic range를 가지므로 frame-level modeling이 필요함 
    • 이후 information filtering을 위해 AutoVC의 bottleneck을 적용하고 encoder를 통해 disentangling을 수행함
      - 특히 same speaker의 random sentence에서 timbre encoder를 통해 global speaker vector를 추출하여 timbre와 content information을 disentangle 함
    • 추가적으로 VQ-based prosody encoder는 ground-truth mel-spectrogram의 low 20 bin에서 ground-truth prosody feature를 추출함

- Multi-Modal Prompt Emotion Encoder

  • Generated speech의 emotion에 대한 flexible control을 위해서는 text, image, speech input prompt로부터 emotion frature를 추출할 수 있어야 함
    • 이를 위해 먼저 논문은 pre-trained Emotion2Vec을 speech emotion enocder로 채택함
      - Text, image encoding의 경우, MM-TTS와 같이 fixed CLIP encoder에 learnable adapter layer를 add 함
    • 이후 text, image, speech modality를 unified emotion latent space로 unify 하기 위해, text emotion encoder와 image emotion encoder를 Mean Squared Error (MSE) loss로 training 함
    • 결과적으로 얻어지는 MPEE loss는:
      (Eq. 1) $\mathcal{L}_{MPEE}=\text{MSE}(E_{t},E_{s})+\text{MSE}(E_{i},E_{s})$
      - $E_{t},E_{i}, E_{s}$ : 각각 text prompt, image prompt, speech prompt의 emotion code
       

Multi-Modal Prompt Emotion Encoder

- LLM-like Prosody Predictor

  • Autoregressive Transformer는 local/long-range dependency를 효과적으로 capture 할 수 있음
    • 따라서 논문은 prosody predictor로써 content/timbre/emotion에서 target prosody를 modeling 하는 LLM-like model을 구성함
    • 먼저 prosody predictor training을 위해 ground-truth mel-spectorgram의 low 20 bin에서 ground-truth prosody code를 추출하는 VQ-based prosody encoder를 도입함
      1. 해당 bin은 almost complete prosody를 포함하면서 full band에 비해 적은 timbre, content information를 가짐
      2. 이때 emotion을 다른 speech feature와 disentangle 하기 위해, emotion code는 similar label을 가지지만 서로 다른 speaker, content를 가진 selected speech clip에서 추출됨
        - 이후 prosody predictor는 Cross-Entropy loss를 통해 teacher-forcing mode로 training 됨
    • 추가적으로 논문은 predicted prosody의 emotion information을 preserve 하기 위해 Emotion Consistency Loss (ECL)을 도입함
      - 즉, prosody predictor에 classifier를 add 하여 predicted prosody code에서 emotion을 recognize 한 다음, predicted result와 emotion label 간의 consistency를 achieve 하도록 함

- Diffusion-based Acoustic Model

  • Acoustic model backbone은 content encoder, timbre encoder, prosody encoder, duration predictor (DP), length regulator (LR), diffusion decoder로 구성됨
    • Content encoder는 local information을 capture 하는 Conformer-based model을 사용하고, DP는 content/timbre/prosody를 combine 하여 phoneme duration을 predict 해 accurate duration을 제공함
      - LR은 phoneme-level latent를 mel-level latent로 upsampling 하고, Grad-TTS 기반의 diffusion-based decoder는 high-quality speech generation을 지원함
    • 특히 논문은 duration loss, diffusion loss, VQ loss를 acoustic model training에 적용함
      - Training 이후에는 trained prosody encoder를 사용하여 prosody predictor training을 위한 target prosody feature를 생성함 

3. Experiments

- Settings

- Results

  • 전체적으로 MPE-TTS의 성능이 가장 우수함

Speech Prompt-based Zero-Shot TTS

  • Text prompt에 대해서도 MPE-TTS는 뛰어난 성능을 보임

Text Prompt-based Zero-Shot TTS

  • Image prompt를 사용하는 경우에도 MPE-TTS의 성능이 가장 뛰어남

Image Prompt-based Zero-Shot TTS

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Total
Today
Yesterday