티스토리 뷰

반응형

ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis


  • 기존의 emotional speech synthesis는 reference audio에서 추출된 utterance-level style embedding을 활용하기 때문에 speech prosody의 multi-scale property를 neglecting 하는 경우가 많음
  • ED-TTS
    • Speech Emotion Diarization (SED)과 Speech Emotion Recognition (SER)을 활용하여 multi-scale에서 emotion을 모델링
    • SER에서 추출한 utterance-level emotion embedding과 SED로 얻은 fine-grained frame-level emotion embedding을 통합하고, 해당 embedding을 denoising diffusion probabilistic model의 reverse process를 condition 하는 데 사용함
    • Cross-domain SED를 사용해 soft label을 예측하고 fine-grained emotion-annotated dataset 부족 문제를 해결
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • Denoising Diffusion Probabilistic Model (DDPM)은 text-to-speech (TTS)에서 우수한 성능을 보이고 있음
    • 대표적으로 EmoDiff는 classifier guidance와 DDPM을 결합하여 controllable emotion synthesis를 수행함
      - BUT, 이와 같은 label guidance는 unseen emotion에 대해서는 확장하기 어려움
    • 한편으로 EmoMix의 경우, DDPM의 reverse process에 대한 condition으로 pre-trained Speech Emotion Recognition (SER) model에서 추출된 high-dimensional emotion embedding을 활용함
      - BUT, 이때 사용되는 utterance-level style embedding은 coarse-to-fine의 multi-scale feature를 반영하지 못함
    • 특히 inotation과 같은 fine-grained prosodic expression은 TTS에서 중요한 요소이고, 실제로 speaker는 speech의 특정 부분을 강조하여 emotion을 더 apparent 하게 전달함
      1. 즉, speech에서 표현되는 emotion을 명확한 temporal boundary를 가지는 varying speech event로써 처리해야 함
      2. 이때 Speech Emotion Diarization (SED)는 정확한 emotion과 해당하는 boundary를 simultaneously identify 하는 것을 목표로 함

-> 그래서 speech emotion의 nuance와 해당 boundary를 효과적으로 반영할 수 있는 Emotion Diarization-TTS (ED-TTS)를 제안

 

  • ED-TTS
    • Utterance-level, frame-level emotional feature를 각각 추출하는 pre-trained SER/SED model을 가지고, DDPM을 기반으로 한 sequence-to-sequence architecture
    • 특히 emotional TTS에서 finely annotated dataset 부족 문제를 해결하기 위해 SED를 도입
      - 즉, unlabeled dataset에서 SED가 예측한 fine-grained soft emotion label을 사용하여 TTS model training을 supervise 함
    • SED와 TTS dataset의 distribution shift를 줄여 soft label accuracy를 향상하는 cross-domain training을 적용

< Overall of ED-TTS >

  • DDPM 기반의 multi-scale emotional TTS model로써 utterance-level SER과 frame-level SED를 활용하여, emotion의 category와 variation/boundary를 각각 identify
  • SED model을 통해 frame-level fine-grained emotion label을 예측하여 TTS model training을 supervise
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

  • ED-TTS는 Grad-TTS를 기반으로 함
    • 이때 multi-scale style encoder는 SER의 utterance-level extracter로 사용되고, fine-grained emotion feature와 boundary를 예측하기 위해 additional pre-trained SED model을 도입함
    • 이후 추출된 multi-scale style embedding을 사용해 DDPM의 reverse process를 condition 함
    • 추가적으로 TTS model training을 supervise 하기 위해 pre-trained cross-domain SED model로 예측된 frame-level soft emotion label을 활용

- Preliminary on Score-based Diffusion Model

  • ED-TTS는 Grad-TTS를 따라 Stochastic Differential Equation (SDE)를 사용하는 score-based diffusion model을 TTS에 적용
    • 먼저 data distribution X0를 terminal distribution XT로 변환하는 diffusion process는:
      (Eq. 1) dXt=12Xtβtdt+βtdWt,t[0,T]
      - βt : pre-defined noise schedule, Wt : Wiener process
      - 이때 해당 SDE에는 diffusion process의 reverse trajectory를 따르는 reverse SDE가 존재함
    • 여기서 Ordinary Differential Equation인 reverse time SDE의 discretized version을 solve 함으로써, 다음과 같이 terminal distribution XT로부터 data X0를 생성할 수 있음:
      (Eq. 2) Xt1N=Xt+βtN(12Xt+Xtlogpt(Xt))+βtNzt
      - t{1N,2N,...,1}, N : discretized reverse process step의 수

      - zt : standard Gaussian noise에서 sample 된 값
    • BUT, score Xtlogpt(Xt)는 intractable 함 
      1. (Eq. 1)에서 distribution Xt|X0N(ρ(X0,t),λ(t))로 유도되고, 여기서 ρ(Xt,t),λ(t)는 closed form을 가짐
      2. 따라서 score는 ϵt를 Gaussian noise라고 할 때, Xtlogpt(Xt|X0)=λ(t)1ϵt와 같음
      3. 결과적으로 score를 추정하기 위해 neural network ϵθ(Xt,μ,t,Zs)는 다음을 통해 training 됨:
        (Eq. 3) Ldiff=Ex0,t,Zs,ϵt[||ϵθ(Xt,μ,t,Zs)+λ(t)1ϵt||22]
        - μ : style, text related Gaussian mean

Overall of ED-TTS

- Multi-Scale Style Encoder

  • ED-TTS는 위 그림과 같이 single SER을 포함하는 emotion encoder를 multi-scale로 확장하여 emotion category, variation, boundary information을 추출함
    • 해당 module은 frame-level style feature를 추출하기 위한 additional SED model과 utterance-level style feature를 추출하는 pre-trained SER이 포함됨
      1. 이때 SER model은 reference speech의 mel-spectrogram과 해당 delta, delta-delta coefficient로부터 fixed size embedding을 추출
      2. SED model로써는 self-supervised model인 pre-trained WavLM을 채택하고 linear classifier를 추가함
        - WavLM에는 CNN-based feature encoder와 transformer block이 사용되고 downstream frame-wise SED task에 대해 fine-tuning 됨
        - ED-TTS에서는 transformer output을 frame-level style embedding으로써 사용
    • 한편으로 speaker conditioning을 위해 resemblyzer를 speaker encoder로 사용함
    • 이때 fine-grained style conditioning을 위해서는 variable-length frame-level prosodic feature를 input text representation과 align 해야 함
      1. 따라서 style representation을 phonetic repsentation Zc와 align 하기 위해, 두 modality 간의 alignment를 학습하여 주어진 style에 따라 content를 reweight 하는 multi-head attention block을 적용
        - 이때 text encoder에 의해 처리된 phoneme representation Zc는 query로 사용되고, frame-level style representation은 key, value로 사용됨
      2. Content-style alignment 이후, aligned representation은 utterance-level style embedding과 speaker embeddding에 추가되어 multi-scale embedding Zs를 구성함
      3. 최종적으로 Zs는 duration predictor와 denoiser에 전달되어 duration modeling을 condition 하고, DDPM process를 reverse 함

- Cross-Domain Training of SED

  • ED-TTS는 reference와 합성된 speech 간의 emotion gap과 boundary offset을 최소화해야 함
    • 이를 위해 SED를 사용하여 unlabeled TTS dataset의 frame-level soft emotion label을 예측하여 ED-TTS를 supervise 함
      - 여기서 합성된 sample이 reference와 동일한 frame-level emotion을 가지도록 하는 additional cross-entropy loss를 통해 training 함
    • 이때 SED는 TTS dataset과는 다른 SED dataset에 대해 pre-train 되기 때문에 domain adaptation technique을 사용하여 다양한 dataset에 대한 distribution shift를 최소화할 수 있음
    • Kernel-based metric인 Maximum Mean Miscrepancy (MMD)는 두 distribution의 equivalence를 결정하는 데 사용됨
      1. 해당 방식은 domain adaptation 측면에서 emotional TTS의 cross-domain SER에 유용함
      2. 먼저 source data S={S1,S2,...,Sns}와 target data T={T1,T2,...,Tnt}에 대해, MMD의 정의는:
        (Eq. 4) MMD2(S,T)=||1nsnsi=1ϕ(Si)1ntntj=1ϕ(Tj)||2H
        =1n2snsi=1nsj=1k(Si,Sj)+1n2tnti=1ntj=1k(Ti,Tj)2nsntnsi=1ntj=1k(Si,Tj)
        - ϕ() : data에서 Reproducing Kernel Hilbert Space (RKHS)로의 mapping
        - k : Gaussian kernel function
      3. 이때 emotion category에 따라 source domain과 target domain을 서로 다른 subdomain으로 나누어, 각 subdomain에 대해 Local MMD (LMMD)를 적용함
      4. 추가적으로 LMMD를 bottleneck layer와 feature encoder의 CNN layer에도 적용한 Multi-layer LMMD (MLMMD)로 확장하여 더 suitable 한 shared feature space를 얻음:
        (Eq. 5) MLMMD2(S,T)=1LCLL=1Cc=1||SiDsWCSiϕ(Si)TjDtWCTjϕ(Tj)||2H
        - L : SED feature encoder의 CNN layer 수, C : emotion category 수
      5. 일반적으로 source, target domain에서 emotion category는 mix 되어 있거나 unknown임
        - 따라서 pre-trained SER에서 얻은 classification probability WCSi,WCTj를 사용하여 source domain과 target domain의 mixed/unknown emotion category를 represent 함
    • 결과적으로 cross-domain SED의 training은 downstream SED에서 WavLM model을 fine-tuning 하는 것으로 볼 수 있고, 이때 total loss function은:
      (Eq. 6) L=LCE+λLMLMMD
      - λ : MLMMD loss에 대한 weight

3. Experiments

- Settings

  • Dataset : BC2013-English Audiobook Dataset
  • Comparisons : FG-TTS, EmoMix

- Results

  • Cross-Domain SED Results
    • Cross-domain SED task에 대해 SED-MLMMD의 성능이 가장 뛰어난 것으로 나타남
    • 즉, domain 간의 distributional gap을 줄이면 cross-domain SED 성능이 향상된다는 것을 의미

Corss-domain SED에 대한 Emotion Diarization Error Rate (EDER)

  • Emotional Speech Evaluation
    • Emotion speech synthesis 측면에서 ED-TTS가 가장 우수한 합성 품질을 보임
    • 이는 ED-TTS에 적용된 multi-scale emotion modeling이 효과적이라는 것을 의미함

Emotion Synthesis 성능 비교

  • Ablation Study
    • Ablation study 측면에서 합성 품질과 reclassification score의 저하는 fine-grained level에서 emotion style representation modeling의 중요성을 나타냄
    • 특히 soft label supervision과 cross-domain training이 없는 경우, CERA가 크게 저하됨

Ablation Study 결과

 

반응형
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday