티스토리 뷰

반응형

IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge


  • Text-to-Speech에서 style transfer는 중요해지고 있음
  • IST-TTS
    • Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
      - 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함
    • Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상
    • 더 나은 transfer 성능을 위해 ControlVAE를 도입해 reconstruction 품질을 향상하면서 interpretability를 확보
  • 논문 (INTERSPEECH 2023) : Paper Link

1. Introduction

  • 최근의 Text-to-Speech (TTS)는 controllability, expressiveness의 향상에 목표를 두고 있음
    • TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
      - FastSpeech는 autoregressive 모델을 teacher로 사용하여 duration predictor를 학습하고 length regulator를 통해 duration information을 control 함
      - FastSpeech2는 Montreal Forced Aligner (MFA)를 활용하고, style control을 위해 supervised 방식으로 pitch, energy predictor를 학습함
    • 이때 TTS pipeline은 일반적으로 intermediate representation을 생성하는 acoustic model과 raw waveform을 합성하는 vocoder로 구성됨
      - VITS와 같이 VAE에서 생성된 latent variable을 연결하여 end-to-end 방식으로 동작할 수도 있음
    • 한편으로 style transfer를 위해서는 강력한 style encoder를 설계할 수 있어야 함
      - 이를 위해 Meta-StyleSpeech는 style adaptive layer norm과 meta-learning을 활용하고, STYLER는 information bottleneck을 통한 speech decomposition을 사용하여 style factor를 반영함
      - GenerSpeech의 경우 multi-level style adaptor와 generalizable content adaptor를 사용
    • BUT, 위와 같은 방법들은 style interpretability가 떨어짐

-> 그래서 TTS 작업에서 더 나은 style representation과 interpretable disentangled style latent space를 제공할 수 있는 IST-TTS를 제안

 

  • IST-TTS
    • VAE-based style encoder를 채택하여 interpretable latent space에 access 하고 diffusion probabilistic model (DPM)을 결합하여 over-smoothing 문제를 극복
    • 생성된 style representation의 diversity를 향상하기 위해 Quantized VAE의 diffusion bridge를 도입
    • 추가적으로 더 나은 reconstruction 품질과 interpretability를 위해 ControlVAE를 사용

< Overall of IST-TTS >

  • Refined mel-spectrogram을 얻기 위해 VAE와 DPM을 결합한 TTS 모델
  • 더 나은 style transfer를 위해 latent space에서 style representation의 diversity를 모델링하는 Quantized VAE의 diffusion bridge를 도입
  • ControlVAE를 통해 기존의 VAE 보다 더 나은 reconstruction ability를 달성하고 결과적으로 우수한 품질과 style interpretability를 달성

2. Background

- Diffusion Probabilistic Models

  • Denoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 뛰어난 성능을 보이고 있음
    • Diffusion process와 reverse process는 diffusion probabilistic model로 주어지고, 이때 data distribution을 학습하기 위해 denoising network θ를 활용할 수 있음 
    • Data distribution을 q(x0), x1,...,xT를 동일한 dimension을 가지는 variable sequence라 하자
      1. 그러면 diffusion process는 data x0에서 latent variable xT까지의 fixed Markov chain으로 정의됨:
        (Eq. 1) q(xt|xt1)=N(xt;1βtxt1,βtI)
        (Eq. 2) q(x1,...,xT|x0)=Tt=1q(xt|xt1)
      2. Reverse process는 shared θ에 의해 parameterize 된 xT에서 x0까지의 Markov chain으로, Gaussian noise에서 sample을 recover 하는 것을 목표로 함:
        (Eq. 3) pθ(xt1|xt)=N(xt1;μθ(xt,t),σ2tI)
        (Eq. 4) pθ(x0,...,xT1|xT)=Tt=1pθ(xt1|xt)

        - αt=1βt,ˉαt=tt=1αt
        - μθ,σ2t : 각각 Gaussian의 평균, 표준편차
    • 최종적으로 얻어지는 training objective는:
      (Eq. 5) LDDPM=Et,x0,ϵ[||ϵϵθ(ˉαtx0+1ˉαtϵ,t)||22]
      - ϵ : Gaussian noise, ϵθ() : model output
    • Sampling 시에는 다음의 formulation을 사용해 sampling 함:
      (Eq. 6) xt1=1αt(xtβt1ˉαtϵθ(xt,t))+σtz
      - ϵN(0,I),pz=N(z;0,I)
      - σt=1ˉαt11ˉαtβt
    • 결과적으로 모든 time step에 걸쳐 iterative sampling을 통해 final data distribution p(x0)를 얻음 

- Variational AutoEncoder

  • Variational AutoEncoder (VAE)에서 observed data distribution p(x)는 random latent variabel z의 random process로 생성된다고 하자
    • 여기서 true posterior distribution pθ(z|x)는 undifferentiable marginal likelihood pθ(x)로 인해 intractable 함 
    • 이를 해결하기 위해 qϕ(z|x)를 true posterior distribution pθ(z|x)에 대한 근사로 도입하면, logpθ(x)에 대한 다음의 formulation을 얻을 수 있음:
      (Eq. 7) logpθ(x)Eqϕ(z|x)[logpθ(x,z)qϕ(z|x)]=Eqϕ(z|x)[logpθ(x|z)]DKL(qϕ(z|x)||pθ(z))
    • VAE의 encoder는 diagonal covariance를 가지는 multivariate Gaussian을 모델링하고, 이때 prior는 standard multivariate Gaussian을 사용함:
      (Eq. 8) qϕ(z|x)=N(z;μϕ(x),σ2ϕ(x)I)
      (Eq. 9) pz=N(z;0,I)

      - qϕ(z|x)μθ,σ2(x)는 neural network를 통해 학습되고, non-derivable 문제를 해결하기 위해 reparameterization trick이 VAE에 도입됨
    • 결과적으로 각 z는 input x와 auxiliary noise variable ϵ의 deterministic function으로써 계산됨:
      (Eq. 10) z=μϕ(x)+σϕ(x)ϵ
      - : element-wise product

- Quantized VAE

  • Quantized VAE는 기존 VAE encoder의 representation ability를 향상하기 위해 도입됨
    • 먼저 Quantized VAE는 VAE output z에 discrete codebook component를 추가하여 VAE를 확장함
      - 이때 z는 codebook의 모든 vector와 compare 되고, 가장 가까운 codebook vector가 VAE decoder로 전달됨
    • 여기서 commitment loss와 codebook loss로 구성된 vector quantization loss는:
      (Eq. 11) LQ=||sg[z]q||22+γ||zsg[q]||22
      - z : VAE output, q : codebook vector, γ : commitment loss weight, sg[] : stop gradient operation

3. Method

  • IST-TTS는 diffusion refiner, diffusion bridge, ControlVAE로 구성됨

- Model Architecture

  • 먼저 reference mel-spectrogram은 style information을 추출하기 위해 reference encoder에 제공되고, style information은 ControlVAE를 통과하여 interpretable latent space Z를 얻음
    • Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨
      - 이때 IST-TTS는 다양한 style representation을 학습하기 위해 DiffWave의 diffusion bridge architecture를 활용함
    • Acoustic model은 FastSpeech architecture를 기반으로 하고, Diffusion refiner는 VAE와 DPM을 결합하여 설계됨
      - 추가적으로 speaker embedding은 x-vector를 통해 추출됨
      - Duration predictor를 training 하고 distillation 과정을 대체하기 위해 MFA를 활용함

IST-TTS Architecture

- Diffusion Refiner

  • VAE와 DPM을 각각 two-stage pipeline, one-stage pipeline으로 통합할 수 있음
    1. Two-stage and One-tage Training Pipeline
      • Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
        - 논문에서는 해당 모델을 VAEFS라고 함
      • Linear layer로 처리된 indermediate mel-spectrogram을 diffusion model의 condition으로 사용하여 diffusion refiner에 제공할 수도 있음
        - 논문에서는 해당 모델을 VAEFS+2s라고 함
      • 한편으로 One-tage piepline에서는 Diff-TTS를 따라 acoustic model을 구성할 수 있음
        - 논문에서는 이를 VAEFS+1s라고 함
    2. Conditional Diffusion Model
      • IST-TTS의 diffusion refiner는 conditional diffusion model임
        - Input이 diffusion model의 condition이 되기 위해서 external intermediate mel-spectrogram이나 decoder input이 필요하기 때문
      • 이때 training objective는:
        (Eq. 12) LR=Et,x0,ϵ,c[||ϵϵθ(ˉαtx0+1ˉαtϵ,t,c)||22]
        - c : condition

- Diffusion Bridge

  • Quantized VAE는 vector quantization을 통해 latent feature를 discretize 하여 보다 expressive 한 sample을 생성함
    • IST-TTS는 Quantized VAE의 expressiveness를 더욱 향상하기 위해 새로운 diffusion bridge를 제시 
    • 구체적으로, complex discrete distribution을 학습하기 위해 VAE output의 z latent space인 continuous space에서 diffusion model을 사용함
      - Diffusion bridge의 sampling process는 추론 시에만 사용됨
    • Diffusion bridge에 대한 training loss는:
      (Eq. 13) LB=Et,z0,ϵ[||ϵϵθ(ˉαtz0+1ˉαtϵ,t)||22]

- ControlVAE

  • Original VAE는 KL vanishing과 low reconstruction quality의 문제를 겪을 수 있으므로, 이를 해결하기 위해 IST-TTS는 controller와 basic VAE를 결합한 ControlVAE를 도입함
    • 특히 non-linear proportional-integral (PI) controller는 training 중에 output KL-divergence를 feedback으로 사용하여 VAE objective에 더해진 weight를 automatically tuning 할 수 있음
    • 여기서 PI controller의 weight β(t):
      (Eq. 14) β(t)=Kp1+exp(e(t))Kitj=0e(j)+βmin
      - Kp,Ki : 각각 porpositional term, integral term의 coefficient
      - e(t) : 실제 KL value와 예측된 KL value 간의 error, βmin : constant
    • 그러면 ControlVAE의 loss는:
      (Eq. 15) LC=Eqϕ(z|x)[logpθ(x|z)]β(t)DKL(qϕ(z|x)||p(z))
      - Reconstruction loss는 one-stage pipeline에서 DiffSinger와 같이 auxiliary feed-forward transformer decoder를 통해 계산됨
    • 결과적으로 IST-TTS의 total training loss는:
      (Eq. 16) LAll=LC+LR+LQ+LB

4. Experiments

- Settings

- Results

  • Parallel Style Transfer
    • FD, MCD를 비롯한 정량적 metric 측면에서 IST-TTS는 가장 우수한 성능을 보임
    • MOS, SMOS 측면에서도 IST-TTS가 가장 뛰어난 성능을 달성함
  • Non-Parallel Style Transfer
    • Non-parallel style transfer는 text가 reference utterance에서 변경되는 경우에 해당함
    • Non-paralle style transfer의 경우에도, 제안된 IST-TTS가 가장 우수한 성능을 보임

정량적 성능 비교
주관적 성능 비교

  • Ablation Study
    • Ablation study 측면에서 IST-TTS의 각 component를 제거하는 경우, 성능 저하가 발생함
    • 추가적으로 합성된 mel-spectrogram을 확인해 보면, diffusion refiner는 VAEFS의 over-smoothing 문제를 해결할 수 있는 것으로 나타남

Diffusion Refiner의 효과 비교

  • Style Interpretability
    • ControlVAE latent space z에서 disentangling을 확인해 보면
    • 아래 그림과 같이 energy, pitch 등의 다양한 speaking style이 나타남

반응형
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday