티스토리 뷰

반응형

ZSDEVC: Zero-Shot Diffusion-based Emotional Voice Conversion with Disentangled Mechanism


  • Emotional Voice Conversion은 emotion accuracy와 speech distortion 문제가 존재함
  • ZSDEVC
    • Disentangled mechanism과 expressive guidance를 가지는 diffusion framework를 활용
    • Large emotional speech dataset으로 model을 training
  • 논문 (INTERSPEECH 2025) : Paper Link

1. Introduction

  • Emotional Voice Conversion (EVC)는 linguistic content, speaker identity를 preserve 하면서 emotional expression을 modify 하는 것을 목표로 함
    • 이를 위해 대표적으로 Generative Adversarial Network (GAN), AutoEncoder가 주로 활용됨
      1. GAN의 경우 adversarial mechanism을 활용하여 서로 다른 emotional data distribution 간의 direct mapping을 학습함
      2. AutoEncoder의 경우 speech를 linguistic content, speaker identity, emotional information과 같은 distinct representation unit으로 decompose 하여 conversion control을 수행함
        - BUT, 해당 방식을 사용하더라도 여전히 EVC model은 suboptimal 함
    • 한편으로 MSP-Podcast와 같은 large-scale emotional speech corpus에는 다양한 context, speaker, emotional state가 포함되어 있음
      - 즉, 해당 dataset을 활용하면 EVC model의 성능을 크게 향상할 수 있음

Emotional Voice Conversion

-> 그래서 large-scale emotional dataset을 활용해 zero-shot ability를 개선한 ZSDEVC를 제안

 

  • ZSDEVC
    • Disentangled mechanism과 expressive guidance을 포함한 diffusion framework를 도입
    • Large-scale non-parallel real-world emotional speech dataset을 활용하여 training을 수행

< Overall of ZSDEVC >

  • Diffusion framework와 large-scale dataset을 활용한 zero-shot EVC model
  • 결과적으로 기존보다 뛰어난 conversion 성능을 달성

2. Method

  • Linguistic content $c$, speaker identity $spk$, emotion information $emo$, generative process $g(\cdot)$에 대해 source $X_{src}:=g(c_{src},spk_{src},emo_{src})$, reference $X_{ref}:=g(c_{ref},spk_{ref},emo_{ref})$의 pair가 주어진다고 하자
    • 그러면 ZSDEVC $G$는 content, speaker identity는 preserve 하면서 $emo_{src}$에서 $emo_{ref}$로의 emotion transform을 수행하는 conversion process $\hat{X}=G(c_{src},spk_{src},emo_{ref})$를 수행함
      - 특히 논문은 unseen speech를 사용하는 zero-shot scenario를 목표로 함
    • 먼저 multiple encoder는 disentanglement mechanism을 통해 distinct component를 추출하고, diffusion-based decoder는 해당 component를 기반으로 mel-spectrogram을 reconstruct 함 
      1. 추론 시에는 result를 negative에서 positive condition으로 push 하기 위해 guidance method가 적용됨
      2. 최종적으로 pre-trained HiFi-GAN vocoder를 사용하여 generated mel-spectrogram을 time-domain signal로 convert 함

- Encoders

  • 3개의 pre-trained encoder는 linguistic content representation $c$, speaker identity, $spk$, emotional expression $emo$를 capture 하기 위해 사용됨
    • Phoneme Encoding
      1. Linguistic content $\bar{X}$를 encode 하기 위해, 논문은 Grad-TTS의 pre-trained Transformer encoder를 adapt 함
      2. 이후 해당 encoder를 통해 input mel-spectrogram $X_{0}$를 speaker, emotion independent average-voice mel-feature로 convert 함
        - 이때 각 phoneme-level mel-feature를 average phoneme-level mel-feature로 replace 함
    • Speaker Encoding
      1. Speaker identity $Z_{s}\in\mathbb{R}^{256}$을 encode 하기 위해, 논문은 DiffVC를 따라 pre-trained speaker verification model을 사용함
    • Emotion Encoding
      1. Emotional information $Z_{e}\in\mathbb{R}^{1024}$의 encoding은 Wav2Vec2-Large를 MSP-Podcast dataset에 fine-tuning 한 SSL-based SER system을 통해 얻어짐
    • 최종적으로 각 representation은 speaker, emotion representation의 disentangling을 위해 $\hat{Z}_{s}=h_{s}(Z_{s}),\hat{Z}_{e}=h_{e}(Z_{e})$로 encoding 됨
      - $h_{s},h_{e}$ : learnable parameter를 가지는 linear transformation

Overview

- Diffusion Decoder

  • ZSDEVC는 Stochastic Differential Equation (SDE)를 기반으로 한 diffusion framework를 사용해 주어진 representation $\bar{X},Z_{s},Z_{e}$에 condition 된 high-quality speech를 생성함
    • Diffusion process는 real sample $X_{0}$를 timestep $t\in[0,1]$에 따라 $X_{t}$로 convert 함
      1. Forward process는 Gaussian noise를 add 하여 $t=1$일 때 average-voice mel-spectrogram $\bar{X}$로 terminate 됨
      2. Reverse process는 $\bar{X}$에서 score estimation $s_{\theta}(X_{t},t,\bar{X},\hat{Z}_{s},\hat{Z}_{e})$를 removing 하여 $X_{0}$를 생성함
    • Parameter $\theta$에 대한 $s_{\theta}$는 added noise와 $s_{\theta}$ 간의 Mean Squared Error $\mathcal{L}_{diff}$를 minimize 하여 training 됨

- Expressive Guidance

  • Converted speech에 대한 diffusion model의 effectiveness를 향상하기 위해, 논문은 positive, negative direction score를 사용하여 reversed diffusion process를 manage 하는 Expressive Guidance를 도입함
    • 이를 위해 추론 시 $s_{\theta}$를 $\hat{s}_{\theta}$로 modify 함:
      (Eq. 1) $ \hat{s}_{\theta}=s_{\theta,neg}+\lambda_{EG}(s_{\theta, pos}-s_{\theta, neg})$
    • $\lambda_{EG}>1$이면 generation process를 negative condition에서 positive condition으로 push 함
      1. Zero-shot EVC에서 positive condition은 source linguistic content $c_{src}$, source speaker identity $spk_{src}$, reference emotion information $emo_{ref}$를 사용함
      2. Negative condition은 $EG_{spk}$에 대해 $spk_{src}$를 $spk_{ref}$로 change 하거나 $EG_{emo}$에 대해 $emo_{ref}$를 $emo_{src}$로 change 함
        - $EG$ : expressive guidance

- Disentangled Loss

  • Emotion information과 speaker identity 간의 correlation을 reduce 하기 위해, ZSDEVC는 representation 간의 Mutual Information (MI) loss를 minimize 함
    • 이때 MI loss는 $\mathcal{L}_{MI}=\hat{I}(\hat{z}_{s},\hat{z}_{e})$와 같음
      - $\hat{I}$ : vCLUB을 사용한 unbiased estimation
    • 추가적으로 논문은 Speaker identity를 preserve 하고 disentangled emotion representation을 residing 하기 위해 다음의 2가지 auxiliary supervised model을 도입함:
      1. Disentangled speaker representation $\hat{z}_{s}$로부터 speaker identity를 predict 함
      2. Disentangled emotion representation $\hat{z}_{e}$로부터 emotion label (Neutral, Angry, Happy, Sad, Surprise)과 emotion attribute (Arousal, Valence)를 predict 함
    • 해당 supervised model은 categorical prediction task에서는 negative log-likelihood loss를, regression task에서는 concordance correlation coefficient loss를 사용하는 $\mathcal{L}_{style}$을 minimize 함
    • Diffusion-based decoder training을 위한 $\mathcal{L}_{diff}$ 외에도 논문은 mel-spectrogram reconstruction loss $\mathcal{L}_{rec}$를 도입하여 $X_{0},\hat{X}_{0}$ 간의 $L1$ norm을 compute 함
      - $\hat{X}_{0}$ : $X_{t},\bar{X},s_{\theta}$에 대한 Tweedie's formula의 single-step approximation
      - 이때 $\lambda_{rec}=(1-t^{2})$으로 설정하여, $t$가 커질수록 Gaussian noise를 add 하는 방식으로 noisy $X_{t}$에 대한 importance loss를 reduce 함
    • 결과적으로 final objective loss는:
      (Eq. 2) $\mathcal{L}_{total}=\mathcal{L}_{diff}+\lambda_{MI}\mathcal{L}_{MI}+\lambda_{style}\mathcal{L}_{style}+\lambda_{rec}\mathcal{L}_{rec}$
      - $\lambda$ : hyperparameter

3. Experiments

- Settings

  • Dataset : MSP-Podcast
  • Comparisons : StarGAN-EVC, Seq2Seq-EVC, EmoVox, Prosody2Vec

- Results

  • 전체적으로 ZSDEVC의 성능이 가장 뛰어남

Model 성능 비교

  • Ablation Study
    • 각 component를 제거하는 경우 성능 저하가 발생함

Ablation Study

  • Zero-Shot EVC
    • $t$-SNE 측면에서 speaker embedding을 비교해 보면, 각각의 dataset은 distinct distribution을 가짐

$t$-SNE

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Total
Today
Yesterday