티스토리 뷰

반응형

PAVITS: Exploring Prosody-Aware VITS for End-to-End Emotional Voice Conversion


  • Emotional voice conversion은 high content naturalness와 high emotional naturalness를 만족해야 함
  • PAVITS
    • Content naturalness를 향상하기 위해 VITS를 기반으로 하는 end-to-end architecture를 채택
      - Acoustic converter와 vocoder를 seamlessly integrating 하여 emotional prosody training과 runtime conversion 간의 mismatch 문제를 해결
    • Emotional naturalness를 위해 다양한 emotion의 subtle prosody variation을 모델링하는 emotion descriptor를 도입
    • 추가적으로 주어진 emotion label을 기반으로 text로부터 prosody feature를 예측하는 prosody predictor를 사용하고 효과적인 training을 위한 prosody alignment loss를 도입
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • Emotional Voice Conversion (EVC)는 linguistic content, speaker identity를 preserving 하면서 spoken utterance의 emotion을 변환하는 것을 목표로 함
    • 이때 EVC는 human voice에 비해 content naturalness가 낮고, emotion richness가 부족한 문제가 있음
      - 이를 해결하기 위해, CycleGAN, StarGAN과 같은 frame-based 방식을 도입할 수 있지만 fixed-length nature로 인해 실질적으로 사용하기 어려움
      - 한편으로 autoencoder-based 방식은 variable-length generation이 가능하고 text-to-speech (TTS)와의 joint training을 통해 naturalness를 향상할 수 있음
    • BUT, speech emotion은 supra-segmental 하므로 여전히 spectrogram으로부터 emotional representation을 학습하는 것은 어려움
      - 특히 기존의 EVC 모델들은 일반적으로 acoustic converter와 vocoder로 이루어진 cacade 방식으로 구성되므로 emotional prosody training과 runtime conversion 간의 mismatch가 발생함
      - 결과적으로 audio 품질이 저하되므로 content naturalness, emotional experience 모두에 영향을 미침
    • 따라서 EVC 모델은 prosody variant를 반영하고 acoustic feature generation과 waveform reconstruction 간의 gap을 해소할 수 있어야 함
      - 이를 위해 FastSpeech2, VITS와 같은 end-to-end 동작 방식을 고려할 수 있음

-> 그래서 emotional naturalness 향상을 위해 prosody variant를 반영하면서 end-to-end 방식으로 동작하는 PAVITS를 제안

 

  • PAVITS
    • VITS를 기반으로 한 end-to-end architecture를 통해 acoustic feature conversion과 waveform reconstruction 간의 mismatch 문제를 해결
      - 이를 통해 content naturalness를 향상하고, multi-task learning을 적용하여 TTS의 mispronunciation을 줄임
    • Emotional naturalness 향상을 위해, 다양한 emotional state를 capture 하는 emotion descriptor를 도입
      - Valence-Arousal-Dominance value를 condition으로 활용하여 utterance-level의 emotional representation을 학습
    • 추가적으로 frame-level emotional prosody feature를 예측하는 prosody predictor를 도입하고, audio/text에 대한 modality를 연결하는 prosody alignment loss를 적용

< Overall of PAVITS >

  • Content naturalness를 향상하기 위해 VITS를 기반으로 하는 end-to-end architecture를 채택
  • Emotional naturalness를 위해 다양한 emotion의 subtle prosody variation을 모델링하는 emotion descriptor와 prosody predictor를 도입하고, 효과적인 training을 위한 prosody alignment loss를 제시
  • 결과적으로 기존 모델들보다 뛰어난 성능을 달성

2. Method

  • PAVITS는 아래 그림과 같이 VITS 기반의 conditional variational autoencoder (CVAE)로 구성됨
    • 구조적으로 textual prosody prediction module, acoustic prosody modeling module, information alignment module, emotional speech synthesis module의 4가지 component로 구성됨
    • 먼저 Textual Prosody Prediction (TPP) module은 prior distribution $p(z_{1}|c_{1})$을 예측함:
      (Eq. 1) $z_{1}=TPP(c_{1})\sim p(z_{1}|c_{1})$
      - $c_{1}$ : text $t$와 emotion label $e$를 포함
    • Acoustic Prosody Modeling (APM) module은 emotion label이 주어진 source audio의 prosody variation, speaker identity, linguistic content를 disentangle 하여 posterior distribution $q(z_{2}|c_{2})$를 얻음:
      (Eq. 2) $z_{2}=APM(c_{2})\sim q(z_{2}|c_{2})$
      - $c_{2}$ : audio $y$와 emotion label $e$를 포함
    • Information Alignment module은 text-speech alignment 뿐만 아니라 textual-acoustic prosody representation의 alignment에도 사용됨
    • Emotional Speech Synthesis (ESS) module의 decoder는 latent representation $z$에 따라 waveform $\hat{y}$를 reconstruct 함:
      (Eq. 3) $\hat{y}=Decoder(z)\sim p(y|z)$
      - $z$는 $z_{1}$ 또는 $z_{2}$에서 얻어짐

Overall of PAVITS

- Textual Prosody Prediction Module

  • Text $t$와 emotion label $e$를 포함하는 condition $c_{1}$이 주어지면 Textual Prosody Prediction (TPP) module은 CVAE의 prior distribution $p(z_{1}|c_{1})$을 제공함 
    • 먼저 text encoder는 phoneme을 input으로 하여 linguistic information $h_{text}$를 추출함
    • 이후 각 phoneme과 관련된 prosody variation을 고려하기 위해, prosody predictor를 사용하여 representation을 frame-level로 extend 하고, emotion label을 기반으로 prosody variation을 예측:
      (Eq. 4) $p(z_{1}|c_{1}) =\mathcal{N}(f_{\theta}(z_{1});\mu_{\theta}(c_{1});\sigma_{\theta}(c_{1}))\left| \det \frac{\partial f_{\theta}(z_{1})}{\partial z}\right|$
      - 즉, prosody variation은 normalizing flow $f_{\theta}$에 의해 생성된 평균 $\mu_{\theta}$, 분산 $\sigma_{\theta}$를 가지는 fine-grained prior normal distribution
    • Text Encoder
      1. Training process는 dataset 내의 text content에 의해 제한되기 때문에 preprocessing step에서 character나 text를 phoneme sequence로 변환하여 APM module과의 compatibility를 향상함
      2. 구조적으로는 VITS와 유사하게 linguistic information을 representing 하기 위한 linear projection layer를 가지는 Feed-Forward Transformer (FFT) block으로 구성됨
    • Prosody Predictor
      1. Prosody predictor는 text encoder에서 추출한 phoneme-level linguistic information을 활용하여 discrete emotion label이 주어진 frame-level prosody variation을 예측함
        - 이를 통해 TPP, APM module 모두에 대한 prosody modeling을 개선할 수 있음
      2. Prosody predictor는 여러 개의 1D convolution layer와 linear projection layer로 구성됨
        - 특히 예측된 emotional prosody information을 linguistic information과 duration predictor의 input으로 integrate 하여 emotional speech duration modeling을 지원함

- Acoustic Prosody Modeling Module

  • Acoustic Prosody Modeling (APM) moduledms dimensional emotion representation인 Valence-Dominance value를 기반으로 한 fine-grained prosody variation을 통해 emotional feature를 제공함
    • 여기서 speaker identity나 speech content information도 source audio로부터 disentangle 되어 posterior distribution $q(z_{2}|c_{2})$에 대한 prosody integrator를 통해 feature fusion 됨:
      (Eq. 5) $q(z_{2}|c_{2})=\mathcal{N}(f_{\theta}(z_{2});\mu_{\theta}(c_{2});\sigma_{\theta}(c_{2}))$
    • Speaker Encoder
      1. APM module은 emotional prosody를 보다 철저하게 understanding 하므로 변환 과정에서 speaker characteristic이 overlook 될 수 있음
      2. 따라서 speake encoder에 Fundamental frequency $F0$를 반영할 수 있는 $F0$ predictor를 추가함
        - 구조적으로는 1D convolution layer와 linear projection layer로 구성
    • Emotion Descriptor
      1. PAVITS의 emotional naturalness를 향상하기 위해, Russles's Cricumplex theory에 기반한 Speech Emotion Recognition system을 사용함
      2. 이를 통해 Valence-Arousal-Dominance value를 conditional input으로 하여 dimensional emotion representation을 예측
        - 해당 input은 nuanced prosody variation을 capture 하여 utterance-level에서 emotion에 대한 human perception을 만족시키고, natural prosody variation이 segment-level에서 frame-level까지 retain 되도록 함
        - 구조적으로는 SER module과 linear projection layer로 구성
    • Prosody Integrator
      1. Prosody Integrator는 speaker identity attribute, emotional prosody characteristic, linear spectrogram에서 추출된 intrinsic content property를 통합함
      2. 구조적으로는 multiple convolution layer, WaveNet residual block, linear projection layer로 구성

- Information Alignment Module

  • VITS의 alignment mechanism인 Monotonic Alignment Search (MAS)는 textual, acoustic feature에만 의존함
    • 즉, MAS는 emotional prosody nuance를 capture 하지 못하므로 TPP, APM module의 effective linkage를 방해함
    • 따라서 PAVITS는 TPP, APM module 전반에 걸쳐 frame-level prosody modeling을 위한 joint training을 지원하는 Kullback-Leibler divergence 기반의 Prosody Alignment Loss를 사용:
      (Eq. 6) $L_{psd}=D_{KL}(q(z_{2}|c_{2})||p(z_{1}|c_{1}))$

- Emotional Speech Synthesis Module

  • Emotional speech synthesis module에서, decoder는 latent $z$를 기반으로 waveform을 생성하고, adversarial training을 통해 naturalness를 지속적으로 개선함
    • Content naturalness를 향상하기 위해 $L_{\text{recon_cls}}$는 예측/target spectrogram 간의 $L1$ distance를 최소화함
    • 한편으로 $L_{\text{recon_fm}}$는 각 discriminator의 intermediate layer에서 추출된 feature map 간의 $L1$ distance를 최소화하여 training stability를 향상함
    • Training 중에 $L_{\text{recon_cls}}$는 early-to-mid stage에 영향을 미치고, $L_{\text{recon_fm}}$는 mid-to-late stage에 영향을 주므로, contirbution을 balance 하기 위해 다음과 같이 coefficient를 적용함:
      (Eq. 7) $L_{\text{recon}}=\gamma L_{\text{recon_cls}}+\beta L_{\text{recon_fm}}(G)$
    • 추가적으로 emotion perception을 향상을 위한 loss로써 다음을 사용함:
      (Eq. 8) $L_{\text{emo}} = L_{\text{emo_cls}} +L_{\text{emo_fm}}(G)$
      - $L_{\text{emo_cls}}$ : emotion classification loss, $L_{\text{emo_fm}}$ : emotion discrimination에 대한 feature matching loss 

- Final Loss

  • 결과적으로 CVAE와 adversarial training을 결합하면 다음의 final loss를 얻을 수 있음:
    (Eq. 9) $L = L_{\text{recon}} + L_{\text{adv}}(G) + L_{\text{emo}} + L_{\text{psd}} + L_{F0} + L_{\text{dur}}$
    (Eq. 10) $L(D) = L_{\text{adv}}(D)$
    - $L_{\text{adv}}(G), L_{\text{adv}}(D)$ : 각각 generator, discriminator에 대한 adversarial loss
    - $L_{F0}$ : 예측된 $F0$와 ground-truth 간의 $L2$ distance
    - $L_{\text{dur}}$ : 추정된 alignment로부터 예측된 duration과 ground-truth 간의 $L2$ loss

- Runtime Conversion

  • Runtime에서는 fixed-length approach인 PAVITS-FL과 variable-length approach인 PAVITS-VL 두가지를 고려할 수 있음
    • PAVITS-FL은 latent $z$를 예측하기 위해 APM module을 사용하고, Dynamic Time Warping (DTW) limitation으로 인해 fixed spectrum length로 제한됨
    • PAVITS-FL은 automatic speech recognition을 통해 얻은 text로부터 latent $z$를 예측하기 위해 TPP moudle을 사용함
      - 이를 통해 duration modeling에 제약되지 않으면서 더 높은 naturalness를 제공할 수 있음
    • 최종적으로 ESS module의 decoder는 latent $z$를 input으로 하여 별도의 vocoder를 사용하지 않고 waveform으로 변환함

3. Experiments

- Settings

  • Dataset : ESD
  • Comparisons : CycleGAN, StarGAN, Seq2Seq-WA2, VITS

- Results

  • 주관적, 정량적 지표 모두에서 PAVITS는 우수한 성능을 달성함

주관적 성능 비교
정량적 성능 비교

  • Emotional Similarity Test 측면에서 PAVITS는 human perception과 가장 가까운 결과를 보임
    - 즉, emotion modeling 과정에서 fine-grained granularity를 더 잘 반영할 수 있음

Emotional Similarity Test 결과

  • Mel-Spectrogram 측면에서도 PAVITS는 각 frequency band 내에서 더 detail 한 prosody variant를 나타내면서 다른 frequency band에 대한 descriptive information을 preserving 할 수 있음
    - 결과적으로 PAVITS는 ground-truth와 가장 비슷한 naturalness와 emotional accuracy를 보이게 됨

Mel-Spectrogram 비교

  • Ablation study 측면에서, prosody predictor, prosody alignment, prosody integrator를 각각 제거할 때마다 성능 저하가 발생함 
    - 즉, PAVITS에서 제안된 각 module들을 사용하는 것이 성능 향상에 유효함

Ablation Study 결과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday