티스토리 뷰
Paper/TTS
[Paper 리뷰] ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis
feVeRin 2024. 5. 14. 09:57반응형
ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis
- 기존의 emotional speech synthesis는 reference audio에서 추출된 utterance-level style embedding을 활용하기 때문에 speech prosody의 multi-scale property를 neglecting 하는 경우가 많음
- ED-TTS
- Speech Emotion Diarization (SED)과 Speech Emotion Recognition (SER)을 활용하여 multi-scale에서 emotion을 모델링
- SER에서 추출한 utterance-level emotion embedding과 SED로 얻은 fine-grained frame-level emotion embedding을 통합하고, 해당 embedding을 denoising diffusion probabilistic model의 reverse process를 condition 하는 데 사용함
- Cross-domain SED를 사용해 soft label을 예측하고 fine-grained emotion-annotated dataset 부족 문제를 해결
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- Denoising Diffusion Probabilistic Model (DDPM)은 text-to-speech (TTS)에서 우수한 성능을 보이고 있음
- 대표적으로 EmoDiff는 classifier guidance와 DDPM을 결합하여 controllable emotion synthesis를 수행함
- BUT, 이와 같은 label guidance는 unseen emotion에 대해서는 확장하기 어려움 - 한편으로 EmoMix의 경우, DDPM의 reverse process에 대한 condition으로 pre-trained Speech Emotion Recognition (SER) model에서 추출된 high-dimensional emotion embedding을 활용함
- BUT, 이때 사용되는 utterance-level style embedding은 coarse-to-fine의 multi-scale feature를 반영하지 못함 - 특히 inotation과 같은 fine-grained prosodic expression은 TTS에서 중요한 요소이고, 실제로 speaker는 speech의 특정 부분을 강조하여 emotion을 더 apparent 하게 전달함
- 즉, speech에서 표현되는 emotion을 명확한 temporal boundary를 가지는 varying speech event로써 처리해야 함
- 이때 Speech Emotion Diarization (SED)는 정확한 emotion과 해당하는 boundary를 simultaneously identify 하는 것을 목표로 함
- 대표적으로 EmoDiff는 classifier guidance와 DDPM을 결합하여 controllable emotion synthesis를 수행함
-> 그래서 speech emotion의 nuance와 해당 boundary를 효과적으로 반영할 수 있는 Emotion Diarization-TTS (ED-TTS)를 제안
- ED-TTS
- Utterance-level, frame-level emotional feature를 각각 추출하는 pre-trained SER/SED model을 가지고, DDPM을 기반으로 한 sequence-to-sequence architecture
- 특히 emotional TTS에서 finely annotated dataset 부족 문제를 해결하기 위해 SED를 도입
- 즉, unlabeled dataset에서 SED가 예측한 fine-grained soft emotion label을 사용하여 TTS model training을 supervise 함 - SED와 TTS dataset의 distribution shift를 줄여 soft label accuracy를 향상하는 cross-domain training을 적용
< Overall of ED-TTS >
- DDPM 기반의 multi-scale emotional TTS model로써 utterance-level SER과 frame-level SED를 활용하여, emotion의 category와 variation/boundary를 각각 identify
- SED model을 통해 frame-level fine-grained emotion label을 예측하여 TTS model training을 supervise
- 결과적으로 기존보다 우수한 성능을 달성
2. Method
- ED-TTS는 Grad-TTS를 기반으로 함
- 이때 multi-scale style encoder는 SER의 utterance-level extracter로 사용되고, fine-grained emotion feature와 boundary를 예측하기 위해 additional pre-trained SED model을 도입함
- 이후 추출된 multi-scale style embedding을 사용해 DDPM의 reverse process를 condition 함
- 추가적으로 TTS model training을 supervise 하기 위해 pre-trained cross-domain SED model로 예측된 frame-level soft emotion label을 활용
- Preliminary on Score-based Diffusion Model
- ED-TTS는 Grad-TTS를 따라 Stochastic Differential Equation (SDE)를 사용하는 score-based diffusion model을 TTS에 적용
- 먼저 data distribution
를 terminal distributionX0 로 변환하는 diffusion process는:XT
(Eq. 1)dXt=−12Xtβtdt+√βtdWt,t∈[0,T]
- : pre-defined noise schedule,βt : Wiener processWt
- 이때 해당 SDE에는 diffusion process의 reverse trajectory를 따르는 reverse SDE가 존재함 - 여기서 Ordinary Differential Equation인 reverse time SDE의 discretized version을 solve 함으로써, 다음과 같이 terminal distribution
로부터 dataXT 를 생성할 수 있음:X0
(Eq. 2)Xt−1N=Xt+βtN(12Xt+∇Xtlogpt(Xt))+√βtNzt
- ,t∈{1N,2N,...,1} : discretized reverse process step의 수N
- : standard Gaussian noise에서 sample 된 값zt - BUT, score
는 intractable 함∇Xtlogpt(Xt) - (Eq. 1)에서 distribution
로 유도되고, 여기서Xt|X0∼N(ρ(X0,t),λ(t)) 는 closed form을 가짐ρ(Xt,t),λ(t) - 따라서 score는
를 Gaussian noise라고 할 때,ϵt 와 같음∇Xtlogpt(Xt|X0)=−λ(t)−1ϵt - 결과적으로 score를 추정하기 위해 neural network
는 다음을 통해 training 됨:ϵθ(Xt,μ,t,Zs)
(Eq. 3)Ldiff=Ex0,t,Zs,ϵt[||ϵθ(Xt,μ,t,Zs)+λ(t)−1ϵt||22]
- : style, text related Gaussian meanμ
- (Eq. 1)에서 distribution
- 먼저 data distribution

- Multi-Scale Style Encoder
- ED-TTS는 위 그림과 같이 single SER을 포함하는 emotion encoder를 multi-scale로 확장하여 emotion category, variation, boundary information을 추출함
- 해당 module은 frame-level style feature를 추출하기 위한 additional SED model과 utterance-level style feature를 추출하는 pre-trained SER이 포함됨
- 이때 SER model은 reference speech의 mel-spectrogram과 해당 delta, delta-delta coefficient로부터 fixed size embedding을 추출
- SED model로써는 self-supervised model인 pre-trained WavLM을 채택하고 linear classifier를 추가함
- WavLM에는 CNN-based feature encoder와 transformer block이 사용되고 downstream frame-wise SED task에 대해 fine-tuning 됨
- ED-TTS에서는 transformer output을 frame-level style embedding으로써 사용
- 한편으로 speaker conditioning을 위해 resemblyzer를 speaker encoder로 사용함
- 이때 fine-grained style conditioning을 위해서는 variable-length frame-level prosodic feature를 input text representation과 align 해야 함
- 따라서 style representation을 phonetic repsentation
와 align 하기 위해, 두 modality 간의 alignment를 학습하여 주어진 style에 따라 content를 reweight 하는 multi-head attention block을 적용Zc
- 이때 text encoder에 의해 처리된 phoneme representation 는 query로 사용되고, frame-level style representation은 key, value로 사용됨Zc - Content-style alignment 이후, aligned representation은 utterance-level style embedding과 speaker embeddding에 추가되어 multi-scale embedding
를 구성함Zs - 최종적으로
는 duration predictor와 denoiser에 전달되어 duration modeling을 condition 하고, DDPM process를 reverse 함Zs
- 따라서 style representation을 phonetic repsentation
- 해당 module은 frame-level style feature를 추출하기 위한 additional SED model과 utterance-level style feature를 추출하는 pre-trained SER이 포함됨
- Cross-Domain Training of SED
- ED-TTS는 reference와 합성된 speech 간의 emotion gap과 boundary offset을 최소화해야 함
- 이를 위해 SED를 사용하여 unlabeled TTS dataset의 frame-level soft emotion label을 예측하여 ED-TTS를 supervise 함
- 여기서 합성된 sample이 reference와 동일한 frame-level emotion을 가지도록 하는 additional cross-entropy loss를 통해 training 함 - 이때 SED는 TTS dataset과는 다른 SED dataset에 대해 pre-train 되기 때문에 domain adaptation technique을 사용하여 다양한 dataset에 대한 distribution shift를 최소화할 수 있음
- Kernel-based metric인 Maximum Mean Miscrepancy (MMD)는 두 distribution의 equivalence를 결정하는 데 사용됨
- 해당 방식은 domain adaptation 측면에서 emotional TTS의 cross-domain SER에 유용함
- 먼저 source data
와 target dataS={S1,S2,...,Sns} 에 대해, MMD의 정의는:T={T1,T2,...,Tnt}
(Eq. 4)MMD2(S,T)=||1ns∑nsi=1ϕ(Si)−1nt∑ntj=1ϕ(Tj)||2H =1n2s∑nsi=1∑nsj=1k(Si,Sj)+1n2t∑nti=1∑ntj=1k(Ti,Tj)−2nsnt∑nsi=1∑ntj=1k(Si,Tj)
- : data에서 Reproducing Kernel Hilbert Space (RKHS)로의 mappingϕ(⋅)
- : Gaussian kernel functionk - 이때 emotion category에 따라 source domain과 target domain을 서로 다른 subdomain으로 나누어, 각 subdomain에 대해 Local MMD (LMMD)를 적용함
- 추가적으로 LMMD를 bottleneck layer와 feature encoder의 CNN layer에도 적용한 Multi-layer LMMD (MLMMD)로 확장하여 더 suitable 한 shared feature space를 얻음:
(Eq. 5)MLMMD2(S,T)=1L⋅C∑LL=1∑Cc=1||∑Si∈DsWCSiϕ(Si)−∑Tj∈DtWCTjϕ(Tj)||2H
- : SED feature encoder의 CNN layer 수,L : emotion category 수C - 일반적으로 source, target domain에서 emotion category는 mix 되어 있거나 unknown임
- 따라서 pre-trained SER에서 얻은 classification probability 를 사용하여 source domain과 target domain의 mixed/unknown emotion category를 represent 함WCSi,WCTj
- 결과적으로 cross-domain SED의 training은 downstream SED에서 WavLM model을 fine-tuning 하는 것으로 볼 수 있고, 이때 total loss function은:
(Eq. 6)L=LCE+λLMLMMD
- : MLMMD loss에 대한 weightλ
- 이를 위해 SED를 사용하여 unlabeled TTS dataset의 frame-level soft emotion label을 예측하여 ED-TTS를 supervise 함
3. Experiments
- Settings
- Dataset : BC2013-English Audiobook Dataset
- Comparisons : FG-TTS, EmoMix
- Results
- Cross-Domain SED Results
- Cross-domain SED task에 대해 SED-MLMMD의 성능이 가장 뛰어난 것으로 나타남
- 즉, domain 간의 distributional gap을 줄이면 cross-domain SED 성능이 향상된다는 것을 의미

- Emotional Speech Evaluation
- Emotion speech synthesis 측면에서 ED-TTS가 가장 우수한 합성 품질을 보임
- 이는 ED-TTS에 적용된 multi-scale emotion modeling이 효과적이라는 것을 의미함

- Ablation Study
- Ablation study 측면에서 합성 품질과 reclassification score의 저하는 fine-grained level에서 emotion style representation modeling의 중요성을 나타냄
- 특히 soft label supervision과 cross-domain training이 없는 경우, CERA가 크게 저하됨

반응형