티스토리 뷰

반응형

ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis


  • 기존의 emotional speech synthesis는 reference audio에서 추출된 utterance-level style embedding을 활용하기 때문에 speech prosody의 multi-scale property를 neglecting 하는 경우가 많음
  • ED-TTS
    • Speech Emotion Diarization (SED)과 Speech Emotion Recognition (SER)을 활용하여 multi-scale에서 emotion을 모델링
    • SER에서 추출한 utterance-level emotion embedding과 SED로 얻은 fine-grained frame-level emotion embedding을 통합하고, 해당 embedding을 denoising diffusion probabilistic model의 reverse process를 condition 하는 데 사용함
    • Cross-domain SED를 사용해 soft label을 예측하고 fine-grained emotion-annotated dataset 부족 문제를 해결
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • Denoising Diffusion Probabilistic Model (DDPM)은 text-to-speech (TTS)에서 우수한 성능을 보이고 있음
    • 대표적으로 EmoDiff는 classifier guidance와 DDPM을 결합하여 controllable emotion synthesis를 수행함
      - BUT, 이와 같은 label guidance는 unseen emotion에 대해서는 확장하기 어려움
    • 한편으로 EmoMix의 경우, DDPM의 reverse process에 대한 condition으로 pre-trained Speech Emotion Recognition (SER) model에서 추출된 high-dimensional emotion embedding을 활용함
      - BUT, 이때 사용되는 utterance-level style embedding은 coarse-to-fine의 multi-scale feature를 반영하지 못함
    • 특히 inotation과 같은 fine-grained prosodic expression은 TTS에서 중요한 요소이고, 실제로 speaker는 speech의 특정 부분을 강조하여 emotion을 더 apparent 하게 전달함
      1. 즉, speech에서 표현되는 emotion을 명확한 temporal boundary를 가지는 varying speech event로써 처리해야 함
      2. 이때 Speech Emotion Diarization (SED)는 정확한 emotion과 해당하는 boundary를 simultaneously identify 하는 것을 목표로 함

-> 그래서 speech emotion의 nuance와 해당 boundary를 효과적으로 반영할 수 있는 Emotion Diarization-TTS (ED-TTS)를 제안

 

  • ED-TTS
    • Utterance-level, frame-level emotional feature를 각각 추출하는 pre-trained SER/SED model을 가지고, DDPM을 기반으로 한 sequence-to-sequence architecture
    • 특히 emotional TTS에서 finely annotated dataset 부족 문제를 해결하기 위해 SED를 도입
      - 즉, unlabeled dataset에서 SED가 예측한 fine-grained soft emotion label을 사용하여 TTS model training을 supervise 함
    • SED와 TTS dataset의 distribution shift를 줄여 soft label accuracy를 향상하는 cross-domain training을 적용

< Overall of ED-TTS >

  • DDPM 기반의 multi-scale emotional TTS model로써 utterance-level SER과 frame-level SED를 활용하여, emotion의 category와 variation/boundary를 각각 identify
  • SED model을 통해 frame-level fine-grained emotion label을 예측하여 TTS model training을 supervise
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

  • ED-TTS는 Grad-TTS를 기반으로 함
    • 이때 multi-scale style encoder는 SER의 utterance-level extracter로 사용되고, fine-grained emotion feature와 boundary를 예측하기 위해 additional pre-trained SED model을 도입함
    • 이후 추출된 multi-scale style embedding을 사용해 DDPM의 reverse process를 condition 함
    • 추가적으로 TTS model training을 supervise 하기 위해 pre-trained cross-domain SED model로 예측된 frame-level soft emotion label을 활용

- Preliminary on Score-based Diffusion Model

  • ED-TTS는 Grad-TTS를 따라 Stochastic Differential Equation (SDE)를 사용하는 score-based diffusion model을 TTS에 적용
    • 먼저 data distribution $X_{0}$를 terminal distribution $X_{T}$로 변환하는 diffusion process는:
      (Eq. 1) $dX_{t}=-\frac{1}{2}X_{t}\beta_{t}dt+\sqrt{\beta_{t}}dW_{t},\,\,\, t\in[0,T]$
      - $\beta_{t}$ : pre-defined noise schedule, $W_{t}$ : Wiener process
      - 이때 해당 SDE에는 diffusion process의 reverse trajectory를 따르는 reverse SDE가 존재함
    • 여기서 Ordinary Differential Equation인 reverse time SDE의 discretized version을 solve 함으로써, 다음과 같이 terminal distribution $X_{T}$로부터 data $X_{0}$를 생성할 수 있음:
      (Eq. 2) $X_{t-\frac{1}{N}}=X_{t}+\frac{\beta_{t}}{N}\left(\frac{1}{2}X_{t}+\nabla_{X_{t}}\log p_{t}(X_{t})\right)+\sqrt{\frac{\beta_{t}}{N}}z_{t}$
      - $t\in\left\{ \frac{1}{N},\frac{2}{N},...,1 \right\}$, $N$ : discretized reverse process step의 수

      - $z_{t}$ : standard Gaussian noise에서 sample 된 값
    • BUT, score $\nabla_{X_{t}}\log p_{t}(X_{t})$는 intractable 함 
      1. (Eq. 1)에서 distribution $X_{t}|X_{0}\sim\mathcal{N}(\rho(X_{0},t),\lambda(t))$로 유도되고, 여기서 $\rho(X_{t},t), \lambda(t)$는 closed form을 가짐
      2. 따라서 score는 $\epsilon_{t}$를 Gaussian noise라고 할 때, $\nabla_{X_{t}}\log p_{t}(X_{t}|X_{0})=-\lambda(t)^{-1}\epsilon_{t}$와 같음
      3. 결과적으로 score를 추정하기 위해 neural network $\epsilon_{\theta}(X_{t},\mu,t,Z_{s})$는 다음을 통해 training 됨:
        (Eq. 3) $\mathcal{L}_{diff}=\mathbb{E}_{x_{0},t,Z_{s},\epsilon_{t}}\left[|| \epsilon_{\theta}(X_{t},\mu,t,Z_{s})+\lambda(t)^{-1}\epsilon_{t}||_{2}^{2}\right]$
        - $\mu$ : style, text related Gaussian mean

Overall of ED-TTS

- Multi-Scale Style Encoder

  • ED-TTS는 위 그림과 같이 single SER을 포함하는 emotion encoder를 multi-scale로 확장하여 emotion category, variation, boundary information을 추출함
    • 해당 module은 frame-level style feature를 추출하기 위한 additional SED model과 utterance-level style feature를 추출하는 pre-trained SER이 포함됨
      1. 이때 SER model은 reference speech의 mel-spectrogram과 해당 delta, delta-delta coefficient로부터 fixed size embedding을 추출
      2. SED model로써는 self-supervised model인 pre-trained WavLM을 채택하고 linear classifier를 추가함
        - WavLM에는 CNN-based feature encoder와 transformer block이 사용되고 downstream frame-wise SED task에 대해 fine-tuning 됨
        - ED-TTS에서는 transformer output을 frame-level style embedding으로써 사용
    • 한편으로 speaker conditioning을 위해 resemblyzer를 speaker encoder로 사용함
    • 이때 fine-grained style conditioning을 위해서는 variable-length frame-level prosodic feature를 input text representation과 align 해야 함
      1. 따라서 style representation을 phonetic repsentation $Z_{c}$와 align 하기 위해, 두 modality 간의 alignment를 학습하여 주어진 style에 따라 content를 reweight 하는 multi-head attention block을 적용
        - 이때 text encoder에 의해 처리된 phoneme representation $Z_{c}$는 query로 사용되고, frame-level style representation은 key, value로 사용됨
      2. Content-style alignment 이후, aligned representation은 utterance-level style embedding과 speaker embeddding에 추가되어 multi-scale embedding $Z_{s}$를 구성함
      3. 최종적으로 $Z_{s}$는 duration predictor와 denoiser에 전달되어 duration modeling을 condition 하고, DDPM process를 reverse 함

- Cross-Domain Training of SED

  • ED-TTS는 reference와 합성된 speech 간의 emotion gap과 boundary offset을 최소화해야 함
    • 이를 위해 SED를 사용하여 unlabeled TTS dataset의 frame-level soft emotion label을 예측하여 ED-TTS를 supervise 함
      - 여기서 합성된 sample이 reference와 동일한 frame-level emotion을 가지도록 하는 additional cross-entropy loss를 통해 training 함
    • 이때 SED는 TTS dataset과는 다른 SED dataset에 대해 pre-train 되기 때문에 domain adaptation technique을 사용하여 다양한 dataset에 대한 distribution shift를 최소화할 수 있음
    • Kernel-based metric인 Maximum Mean Miscrepancy (MMD)는 두 distribution의 equivalence를 결정하는 데 사용됨
      1. 해당 방식은 domain adaptation 측면에서 emotional TTS의 cross-domain SER에 유용함
      2. 먼저 source data $S=\{S_{1},S_{2},...,S_{n_{s}}\}$와 target data $T=\{T_{1}, T_{2},...,T_{n_{t}}\}$에 대해, MMD의 정의는:
        (Eq. 4) $\textrm{MMD}^{2}(S,T)=\left|\left| \frac{1}{n_{s}}\sum_{i=1}^{n_{s}}\phi(S_{i})-\frac{1}{n_{t}}\sum_{j=1}^{n_{t}}\phi(T_{j}) \right|\right|_{\mathcal{H}}^{2}$
        $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,= \frac{1}{n_{s}^{2}}\sum_{i=1}^{n_{s}}\sum_{j=1}^{n_{s}}k(S_{i},S_{j})+\frac{1}{n_{t}^{2}}\sum_{i=1}^{n_{t}}\sum_{j=1}^{n_{t}}k(T_{i},T_{j})-\frac{2}{n_{s}n_{t}}\sum_{i=1}^{n_{s}}\sum_{j=1}^{n_{t}}k(S_{i},T_{j}) $
        - $\phi(\cdot)$ : data에서 Reproducing Kernel Hilbert Space (RKHS)로의 mapping
        - $k$ : Gaussian kernel function
      3. 이때 emotion category에 따라 source domain과 target domain을 서로 다른 subdomain으로 나누어, 각 subdomain에 대해 Local MMD (LMMD)를 적용함
      4. 추가적으로 LMMD를 bottleneck layer와 feature encoder의 CNN layer에도 적용한 Multi-layer LMMD (MLMMD)로 확장하여 더 suitable 한 shared feature space를 얻음:
        (Eq. 5) $\textrm{MLMMD}^{2}(S,T)=\frac{1}{L\cdot C}\sum_{L=1}^{L}\sum_{c=1}^{C}\left|\left| \sum_{S_{i}\in D_{s}} W_{S_{i}}^{C}\phi(S_{i})-\sum_{T_{j}\in D_{t}}W_{T_{j}}^{C}\phi(T_{j})\right|\right|_{\mathcal{H}}^{2}$
        - $L$ : SED feature encoder의 CNN layer 수, $C$ : emotion category 수
      5. 일반적으로 source, target domain에서 emotion category는 mix 되어 있거나 unknown임
        - 따라서 pre-trained SER에서 얻은 classification probability $W_{S_{i}}^{C}, W_{T_{j}}^{C}$를 사용하여 source domain과 target domain의 mixed/unknown emotion category를 represent 함
    • 결과적으로 cross-domain SED의 training은 downstream SED에서 WavLM model을 fine-tuning 하는 것으로 볼 수 있고, 이때 total loss function은:
      (Eq. 6) $\mathcal{L}=\mathcal{L}_{CE}+\lambda \mathcal{L}_{MLMMD}$
      - $\lambda$ : MLMMD loss에 대한 weight

3. Experiments

- Settings

  • Dataset : BC2013-English Audiobook Dataset
  • Comparisons : FG-TTS, EmoMix

- Results

  • Cross-Domain SED Results
    • Cross-domain SED task에 대해 SED-MLMMD의 성능이 가장 뛰어난 것으로 나타남
    • 즉, domain 간의 distributional gap을 줄이면 cross-domain SED 성능이 향상된다는 것을 의미

Corss-domain SED에 대한 Emotion Diarization Error Rate (EDER)

  • Emotional Speech Evaluation
    • Emotion speech synthesis 측면에서 ED-TTS가 가장 우수한 합성 품질을 보임
    • 이는 ED-TTS에 적용된 multi-scale emotion modeling이 효과적이라는 것을 의미함

Emotion Synthesis 성능 비교

  • Ablation Study
    • Ablation study 측면에서 합성 품질과 reclassification score의 저하는 fine-grained level에서 emotion style representation modeling의 중요성을 나타냄
    • 특히 soft label supervision과 cross-domain training이 없는 경우, CERA가 크게 저하됨

Ablation Study 결과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday