티스토리 뷰

반응형

IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge


  • Text-to-Speech에서 style transfer는 중요해지고 있음
  • IST-TTS
    • Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
      - 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함
    • Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상
    • 더 나은 transfer 성능을 위해 ControlVAE를 도입해 reconstruction 품질을 향상하면서 interpretability를 확보
  • 논문 (INTERSPEECH 2023) : Paper Link

1. Introduction

  • 최근의 Text-to-Speech (TTS)는 controllability, expressiveness의 향상에 목표를 두고 있음
    • TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
      - FastSpeech는 autoregressive 모델을 teacher로 사용하여 duration predictor를 학습하고 length regulator를 통해 duration information을 control 함
      - FastSpeech2는 Montreal Forced Aligner (MFA)를 활용하고, style control을 위해 supervised 방식으로 pitch, energy predictor를 학습함
    • 이때 TTS pipeline은 일반적으로 intermediate representation을 생성하는 acoustic model과 raw waveform을 합성하는 vocoder로 구성됨
      - VITS와 같이 VAE에서 생성된 latent variable을 연결하여 end-to-end 방식으로 동작할 수도 있음
    • 한편으로 style transfer를 위해서는 강력한 style encoder를 설계할 수 있어야 함
      - 이를 위해 Meta-StyleSpeech는 style adaptive layer norm과 meta-learning을 활용하고, STYLER는 information bottleneck을 통한 speech decomposition을 사용하여 style factor를 반영함
      - GenerSpeech의 경우 multi-level style adaptor와 generalizable content adaptor를 사용
    • BUT, 위와 같은 방법들은 style interpretability가 떨어짐

-> 그래서 TTS 작업에서 더 나은 style representation과 interpretable disentangled style latent space를 제공할 수 있는 IST-TTS를 제안

 

  • IST-TTS
    • VAE-based style encoder를 채택하여 interpretable latent space에 access 하고 diffusion probabilistic model (DPM)을 결합하여 over-smoothing 문제를 극복
    • 생성된 style representation의 diversity를 향상하기 위해 Quantized VAE의 diffusion bridge를 도입
    • 추가적으로 더 나은 reconstruction 품질과 interpretability를 위해 ControlVAE를 사용

< Overall of IST-TTS >

  • Refined mel-spectrogram을 얻기 위해 VAE와 DPM을 결합한 TTS 모델
  • 더 나은 style transfer를 위해 latent space에서 style representation의 diversity를 모델링하는 Quantized VAE의 diffusion bridge를 도입
  • ControlVAE를 통해 기존의 VAE 보다 더 나은 reconstruction ability를 달성하고 결과적으로 우수한 품질과 style interpretability를 달성

2. Background

- Diffusion Probabilistic Models

  • Denoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 뛰어난 성능을 보이고 있음
    • Diffusion process와 reverse process는 diffusion probabilistic model로 주어지고, 이때 data distribution을 학습하기 위해 denoising network $\theta$를 활용할 수 있음 
    • Data distribution을 $q(x_{0})$, $x_{1},...,x_{T}$를 동일한 dimension을 가지는 variable sequence라 하자
      1. 그러면 diffusion process는 data $x_{0}$에서 latent variable $x_{T}$까지의 fixed Markov chain으로 정의됨:
        (Eq. 1) $q(x_{t}|x_{t-1})=\mathcal{N}(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}I)$
        (Eq. 2) $q(x_{1},...,x_{T}|x_{0})=\prod_{t=1}^{T}q(x_{t}|x_{t-1})$
      2. Reverse process는 shared $\theta$에 의해 parameterize 된 $x_{T}$에서 $x_{0}$까지의 Markov chain으로, Gaussian noise에서 sample을 recover 하는 것을 목표로 함:
        (Eq. 3) $p_{\theta}(x_{t-1}|x_{t})=\mathcal{N}(x_{t-1};\mu_{\theta}(x_{t},t),\sigma^{2}_{t}I)$
        (Eq. 4) $p_{\theta}(x_{0},...,x_{T-1}|x_{T})=\prod_{t=1}^{T}p_{\theta}(x_{t-1}|x_{t})$

        - $\alpha_{t}=1-\beta_{t},\,\bar{\alpha}_{t}=\prod_{t=1}^{t}\alpha_{t}$
        - $\mu_{\theta}, \sigma_{t}^{2}$ : 각각 Gaussian의 평균, 표준편차
    • 최종적으로 얻어지는 training objective는:
      (Eq. 5) $L_{DDPM}=\mathbb{E}_{t,x_{0},\epsilon}\left[|| \epsilon-\epsilon_{\theta}\left( \sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}}_{t}\epsilon, t\right) ||_{2}^{2}\right]$
      - $\epsilon$ : Gaussian noise, $\epsilon_{\theta}(\cdot)$ : model output
    • Sampling 시에는 다음의 formulation을 사용해 sampling 함:
      (Eq. 6) $x_{t-1}=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}}_{t}}\epsilon_{\theta}(x_{t},t)\right)+\sigma_{t}z$
      - $\epsilon\sim\mathcal{N}(0,I), \, p_{z}=\mathcal{N}(z;0,I)$
      - $\sigma_{t}=\sqrt{\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}}\beta_{t}}$
    • 결과적으로 모든 time step에 걸쳐 iterative sampling을 통해 final data distribution $p(x_{0})$를 얻음 

- Variational AutoEncoder

  • Variational AutoEncoder (VAE)에서 observed data distribution $p(x)$는 random latent variabel $z$의 random process로 생성된다고 하자
    • 여기서 true posterior distribution $p_{\theta}(z|x)$는 undifferentiable marginal likelihood $p_{\theta}(x)$로 인해 intractable 함 
    • 이를 해결하기 위해 $q_{\phi}(z|x)$를 true posterior distribution $p_{\theta}(z|x)$에 대한 근사로 도입하면, $\log p_{\theta}(x)$에 대한 다음의 formulation을 얻을 수 있음:
      (Eq. 7) $\log p_{\theta}(x)\geq \mathbb{E}_{q_{\phi}(z|x)}\left[\log \frac{p_{\theta}(x,z)}{q_{\phi}(z|x)}\right]=\mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)]-D_{KL}(q_{\phi}(z|x)||p_{\theta}(z))$
    • VAE의 encoder는 diagonal covariance를 가지는 multivariate Gaussian을 모델링하고, 이때 prior는 standard multivariate Gaussian을 사용함:
      (Eq. 8) $q_{\phi}(z|x)=\mathcal{N}(z;\mu_{\phi}(x),\sigma^{2}_{\phi}(x)I)$
      (Eq. 9) $p_{z}=\mathcal{N}(z;0,I)$

      - $q_{\phi}(z|x)$의 $\mu_{\theta}, \sigma^{2}(x)$는 neural network를 통해 학습되고, non-derivable 문제를 해결하기 위해 reparameterization trick이 VAE에 도입됨
    • 결과적으로 각 $z$는 input $x$와 auxiliary noise variable $\epsilon$의 deterministic function으로써 계산됨:
      (Eq. 10) $z=\mu_{\phi}(x)+\sigma_{\phi}(x)\odot \epsilon$
      - $\odot$ : element-wise product

- Quantized VAE

  • Quantized VAE는 기존 VAE encoder의 representation ability를 향상하기 위해 도입됨
    • 먼저 Quantized VAE는 VAE output $z$에 discrete codebook component를 추가하여 VAE를 확장함
      - 이때 $z$는 codebook의 모든 vector와 compare 되고, 가장 가까운 codebook vector가 VAE decoder로 전달됨
    • 여기서 commitment loss와 codebook loss로 구성된 vector quantization loss는:
      (Eq. 11) $L_{Q}=||sg[z]-q||_{2}^{2}+\gamma||z-sg[q]||_{2}^{2}$
      - $z$ : VAE output, $q$ : codebook vector, $\gamma$ : commitment loss weight, $sg[\cdot]$ : stop gradient operation

3. Method

  • IST-TTS는 diffusion refiner, diffusion bridge, ControlVAE로 구성됨

- Model Architecture

  • 먼저 reference mel-spectrogram은 style information을 추출하기 위해 reference encoder에 제공되고, style information은 ControlVAE를 통과하여 interpretable latent space $Z$를 얻음
    • Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨
      - 이때 IST-TTS는 다양한 style representation을 학습하기 위해 DiffWave의 diffusion bridge architecture를 활용함
    • Acoustic model은 FastSpeech architecture를 기반으로 하고, Diffusion refiner는 VAE와 DPM을 결합하여 설계됨
      - 추가적으로 speaker embedding은 x-vector를 통해 추출됨
      - Duration predictor를 training 하고 distillation 과정을 대체하기 위해 MFA를 활용함

IST-TTS Architecture

- Diffusion Refiner

  • VAE와 DPM을 각각 two-stage pipeline, one-stage pipeline으로 통합할 수 있음
    1. Two-stage and One-tage Training Pipeline
      • Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
        - 논문에서는 해당 모델을 VAEFS라고 함
      • Linear layer로 처리된 indermediate mel-spectrogram을 diffusion model의 condition으로 사용하여 diffusion refiner에 제공할 수도 있음
        - 논문에서는 해당 모델을 VAEFS+2s라고 함
      • 한편으로 One-tage piepline에서는 Diff-TTS를 따라 acoustic model을 구성할 수 있음
        - 논문에서는 이를 VAEFS+1s라고 함
    2. Conditional Diffusion Model
      • IST-TTS의 diffusion refiner는 conditional diffusion model임
        - Input이 diffusion model의 condition이 되기 위해서 external intermediate mel-spectrogram이나 decoder input이 필요하기 때문
      • 이때 training objective는:
        (Eq. 12) $L_{R}=\mathbb{E}_{t,x_{0},\epsilon,c}\left[ || \epsilon-\epsilon_{\theta}\left( \sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon,t,c\right)||_{2}^{2}\right]$
        - $c$ : condition

- Diffusion Bridge

  • Quantized VAE는 vector quantization을 통해 latent feature를 discretize 하여 보다 expressive 한 sample을 생성함
    • IST-TTS는 Quantized VAE의 expressiveness를 더욱 향상하기 위해 새로운 diffusion bridge를 제시 
    • 구체적으로, complex discrete distribution을 학습하기 위해 VAE output의 $z$ latent space인 continuous space에서 diffusion model을 사용함
      - Diffusion bridge의 sampling process는 추론 시에만 사용됨
    • Diffusion bridge에 대한 training loss는:
      (Eq. 13) $L_{B}=\mathbb{E}_{t,z_{0},\epsilon}\left[ || \epsilon-\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}}z_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon,t\right)||_{2}^{2}\right]$

- ControlVAE

  • Original VAE는 KL vanishing과 low reconstruction quality의 문제를 겪을 수 있으므로, 이를 해결하기 위해 IST-TTS는 controller와 basic VAE를 결합한 ControlVAE를 도입함
    • 특히 non-linear proportional-integral (PI) controller는 training 중에 output KL-divergence를 feedback으로 사용하여 VAE objective에 더해진 weight를 automatically tuning 할 수 있음
    • 여기서 PI controller의 weight $\beta(t)$는:
      (Eq. 14) $\beta(t)=\frac{K_{p}}{1+\exp(e(t))}-K_{i}\sum_{j=0}^{t}e(j)+\beta_{\min}$
      - $K_{p}, K_{i}$ : 각각 porpositional term, integral term의 coefficient
      - $e(t)$ : 실제 KL value와 예측된 KL value 간의 error, $\beta_{\min}$ : constant
    • 그러면 ControlVAE의 loss는:
      (Eq. 15) $L_{C}=\mathbb{E}_{q_{\phi}(z|x)}\left[\log p_{\theta}(x|z)\right]-\beta(t)D_{KL}(q_{\phi}(z|x)||p(z))$
      - Reconstruction loss는 one-stage pipeline에서 DiffSinger와 같이 auxiliary feed-forward transformer decoder를 통해 계산됨
    • 결과적으로 IST-TTS의 total training loss는:
      (Eq. 16) $L_{All} = L_{C}+L_{R}+L_{Q}+L_{B}$

4. Experiments

- Settings

- Results

  • Parallel Style Transfer
    • FD, MCD를 비롯한 정량적 metric 측면에서 IST-TTS는 가장 우수한 성능을 보임
    • MOS, SMOS 측면에서도 IST-TTS가 가장 뛰어난 성능을 달성함
  • Non-Parallel Style Transfer
    • Non-parallel style transfer는 text가 reference utterance에서 변경되는 경우에 해당함
    • Non-paralle style transfer의 경우에도, 제안된 IST-TTS가 가장 우수한 성능을 보임

정량적 성능 비교
주관적 성능 비교

  • Ablation Study
    • Ablation study 측면에서 IST-TTS의 각 component를 제거하는 경우, 성능 저하가 발생함
    • 추가적으로 합성된 mel-spectrogram을 확인해 보면, diffusion refiner는 VAEFS의 over-smoothing 문제를 해결할 수 있는 것으로 나타남

Diffusion Refiner의 효과 비교

  • Style Interpretability
    • ControlVAE latent space $z$에서 disentangling을 확인해 보면
    • 아래 그림과 같이 energy, pitch 등의 다양한 speaking style이 나타남

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday