티스토리 뷰
Paper/TTS
[Paper 리뷰] IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
feVeRin 2024. 5. 5. 09:21반응형
IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
- Text-to-Speech에서 style transfer는 중요해지고 있음
- IST-TTS
- Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
- 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함 - Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상
- 더 나은 transfer 성능을 위해 ControlVAE를 도입해 reconstruction 품질을 향상하면서 interpretability를 확보
- Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
- 논문 (INTERSPEECH 2023) : Paper Link
1. Introduction
- 최근의 Text-to-Speech (TTS)는 controllability, expressiveness의 향상에 목표를 두고 있음
- TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
- FastSpeech는 autoregressive 모델을 teacher로 사용하여 duration predictor를 학습하고 length regulator를 통해 duration information을 control 함
- FastSpeech2는 Montreal Forced Aligner (MFA)를 활용하고, style control을 위해 supervised 방식으로 pitch, energy predictor를 학습함 - 이때 TTS pipeline은 일반적으로 intermediate representation을 생성하는 acoustic model과 raw waveform을 합성하는 vocoder로 구성됨
- VITS와 같이 VAE에서 생성된 latent variable을 연결하여 end-to-end 방식으로 동작할 수도 있음 - 한편으로 style transfer를 위해서는 강력한 style encoder를 설계할 수 있어야 함
- 이를 위해 Meta-StyleSpeech는 style adaptive layer norm과 meta-learning을 활용하고, STYLER는 information bottleneck을 통한 speech decomposition을 사용하여 style factor를 반영함
- GenerSpeech의 경우 multi-level style adaptor와 generalizable content adaptor를 사용 - BUT, 위와 같은 방법들은 style interpretability가 떨어짐
- TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
-> 그래서 TTS 작업에서 더 나은 style representation과 interpretable disentangled style latent space를 제공할 수 있는 IST-TTS를 제안
- IST-TTS
- VAE-based style encoder를 채택하여 interpretable latent space에 access 하고 diffusion probabilistic model (DPM)을 결합하여 over-smoothing 문제를 극복
- 생성된 style representation의 diversity를 향상하기 위해 Quantized VAE의 diffusion bridge를 도입
- 추가적으로 더 나은 reconstruction 품질과 interpretability를 위해 ControlVAE를 사용
< Overall of IST-TTS >
- Refined mel-spectrogram을 얻기 위해 VAE와 DPM을 결합한 TTS 모델
- 더 나은 style transfer를 위해 latent space에서 style representation의 diversity를 모델링하는 Quantized VAE의 diffusion bridge를 도입
- ControlVAE를 통해 기존의 VAE 보다 더 나은 reconstruction ability를 달성하고 결과적으로 우수한 품질과 style interpretability를 달성
2. Background
- Diffusion Probabilistic Models
- Denoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 뛰어난 성능을 보이고 있음
- Diffusion process와 reverse process는 diffusion probabilistic model로 주어지고, 이때 data distribution을 학습하기 위해 denoising network
를 활용할 수 있음θ - Data distribution을
,q(x0) 를 동일한 dimension을 가지는 variable sequence라 하자x1,...,xT - 그러면 diffusion process는 data
에서 latent variablex0 까지의 fixed Markov chain으로 정의됨:xT
(Eq. 1)q(xt|xt−1)=N(xt;√1−βtxt−1,βtI)
(Eq. 2)q(x1,...,xT|x0)=∏Tt=1q(xt|xt−1) - Reverse process는 shared
에 의해 parameterize 된θ 에서xT 까지의 Markov chain으로, Gaussian noise에서 sample을 recover 하는 것을 목표로 함:x0
(Eq. 3)pθ(xt−1|xt)=N(xt−1;μθ(xt,t),σ2tI)
(Eq. 4)pθ(x0,...,xT−1|xT)=∏Tt=1pθ(xt−1|xt)
-αt=1−βt,ˉαt=∏tt=1αt
- : 각각 Gaussian의 평균, 표준편차μθ,σ2t
- 그러면 diffusion process는 data
- 최종적으로 얻어지는 training objective는:
(Eq. 5)LDDPM=Et,x0,ϵ[||ϵ−ϵθ(√ˉαtx0+√1−ˉαtϵ,t)||22]
- : Gaussian noise,ϵ : model outputϵθ(⋅) - Sampling 시에는 다음의 formulation을 사용해 sampling 함:
(Eq. 6)xt−1=1√αt(xt−βt√1−ˉαtϵθ(xt,t))+σtz
-ϵ∼N(0,I),pz=N(z;0,I)
-σt=√1−ˉαt−11−ˉαtβt - 결과적으로 모든 time step에 걸쳐 iterative sampling을 통해 final data distribution
를 얻음p(x0)
- Diffusion process와 reverse process는 diffusion probabilistic model로 주어지고, 이때 data distribution을 학습하기 위해 denoising network
- Variational AutoEncoder
- Variational AutoEncoder (VAE)에서 observed data distribution
는 random latent variabelp(x) 의 random process로 생성된다고 하자z - 여기서 true posterior distribution
는 undifferentiable marginal likelihoodpθ(z|x) 로 인해 intractable 함pθ(x) - 이를 해결하기 위해
를 true posterior distributionqϕ(z|x) 에 대한 근사로 도입하면,pθ(z|x) 에 대한 다음의 formulation을 얻을 수 있음:logpθ(x)
(Eq. 7)logpθ(x)≥Eqϕ(z|x)[logpθ(x,z)qϕ(z|x)]=Eqϕ(z|x)[logpθ(x|z)]−DKL(qϕ(z|x)||pθ(z)) - VAE의 encoder는 diagonal covariance를 가지는 multivariate Gaussian을 모델링하고, 이때 prior는 standard multivariate Gaussian을 사용함:
(Eq. 8)qϕ(z|x)=N(z;μϕ(x),σ2ϕ(x)I)
(Eq. 9)pz=N(z;0,I)
- 의qϕ(z|x) 는 neural network를 통해 학습되고, non-derivable 문제를 해결하기 위해 reparameterization trick이 VAE에 도입됨μθ,σ2(x) - 결과적으로 각
는 inputz 와 auxiliary noise variablex 의 deterministic function으로써 계산됨:ϵ
(Eq. 10)z=μϕ(x)+σϕ(x)⊙ϵ
- : element-wise product⊙
- 여기서 true posterior distribution
- Quantized VAE
- Quantized VAE는 기존 VAE encoder의 representation ability를 향상하기 위해 도입됨
- 먼저 Quantized VAE는 VAE output
에 discrete codebook component를 추가하여 VAE를 확장함z
- 이때 는 codebook의 모든 vector와 compare 되고, 가장 가까운 codebook vector가 VAE decoder로 전달됨z - 여기서 commitment loss와 codebook loss로 구성된 vector quantization loss는:
(Eq. 11)LQ=||sg[z]−q||22+γ||z−sg[q]||22
- : VAE output,z : codebook vector,q : commitment loss weight,γ : stop gradient operationsg[⋅]
- 먼저 Quantized VAE는 VAE output
3. Method
- IST-TTS는 diffusion refiner, diffusion bridge, ControlVAE로 구성됨
- Model Architecture
- 먼저 reference mel-spectrogram은 style information을 추출하기 위해 reference encoder에 제공되고, style information은 ControlVAE를 통과하여 interpretable latent space
를 얻음Z - Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨
- 이때 IST-TTS는 다양한 style representation을 학습하기 위해 DiffWave의 diffusion bridge architecture를 활용함 - Acoustic model은 FastSpeech architecture를 기반으로 하고, Diffusion refiner는 VAE와 DPM을 결합하여 설계됨
- 추가적으로 speaker embedding은 x-vector를 통해 추출됨
- Duration predictor를 training 하고 distillation 과정을 대체하기 위해 MFA를 활용함
- Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨

- Diffusion Refiner
- VAE와 DPM을 각각 two-stage pipeline, one-stage pipeline으로 통합할 수 있음
- Two-stage and One-tage Training Pipeline
- Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
- 논문에서는 해당 모델을 VAEFS라고 함 - Linear layer로 처리된 indermediate mel-spectrogram을 diffusion model의 condition으로 사용하여 diffusion refiner에 제공할 수도 있음
- 논문에서는 해당 모델을 VAEFS+2s라고 함 - 한편으로 One-tage piepline에서는 Diff-TTS를 따라 acoustic model을 구성할 수 있음
- 논문에서는 이를 VAEFS+1s라고 함
- Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
- Conditional Diffusion Model
- IST-TTS의 diffusion refiner는 conditional diffusion model임
- Input이 diffusion model의 condition이 되기 위해서 external intermediate mel-spectrogram이나 decoder input이 필요하기 때문 - 이때 training objective는:
(Eq. 12)LR=Et,x0,ϵ,c[||ϵ−ϵθ(√ˉαtx0+√1−ˉαtϵ,t,c)||22]
- : conditionc
- IST-TTS의 diffusion refiner는 conditional diffusion model임
- Two-stage and One-tage Training Pipeline
- Diffusion Bridge
- Quantized VAE는 vector quantization을 통해 latent feature를 discretize 하여 보다 expressive 한 sample을 생성함
- IST-TTS는 Quantized VAE의 expressiveness를 더욱 향상하기 위해 새로운 diffusion bridge를 제시
- 구체적으로, complex discrete distribution을 학습하기 위해 VAE output의
latent space인 continuous space에서 diffusion model을 사용함z
- Diffusion bridge의 sampling process는 추론 시에만 사용됨 - Diffusion bridge에 대한 training loss는:
(Eq. 13)LB=Et,z0,ϵ[||ϵ−ϵθ(√ˉαtz0+√1−ˉαtϵ,t)||22]
- ControlVAE
- Original VAE는 KL vanishing과 low reconstruction quality의 문제를 겪을 수 있으므로, 이를 해결하기 위해 IST-TTS는 controller와 basic VAE를 결합한 ControlVAE를 도입함
- 특히 non-linear proportional-integral (PI) controller는 training 중에 output KL-divergence를 feedback으로 사용하여 VAE objective에 더해진 weight를 automatically tuning 할 수 있음
- 여기서 PI controller의 weight
는:β(t)
(Eq. 14)β(t)=Kp1+exp(e(t))−Ki∑tj=0e(j)+βmin
- : 각각 porpositional term, integral term의 coefficientKp,Ki
- : 실제 KL value와 예측된 KL value 간의 error,e(t) : constantβmin - 그러면 ControlVAE의 loss는:
(Eq. 15)LC=Eqϕ(z|x)[logpθ(x|z)]−β(t)DKL(qϕ(z|x)||p(z))
- Reconstruction loss는 one-stage pipeline에서 DiffSinger와 같이 auxiliary feed-forward transformer decoder를 통해 계산됨 - 결과적으로 IST-TTS의 total training loss는:
(Eq. 16)LAll=LC+LR+LQ+LB
4. Experiments
- Settings
- Dataset : LibriTTS
- Comparisons : GenerSpeech
- Results
- Parallel Style Transfer
- FD, MCD를 비롯한 정량적 metric 측면에서 IST-TTS는 가장 우수한 성능을 보임
- MOS, SMOS 측면에서도 IST-TTS가 가장 뛰어난 성능을 달성함
- Non-Parallel Style Transfer
- Non-parallel style transfer는 text가 reference utterance에서 변경되는 경우에 해당함
- Non-paralle style transfer의 경우에도, 제안된 IST-TTS가 가장 우수한 성능을 보임


- Ablation Study
- Ablation study 측면에서 IST-TTS의 각 component를 제거하는 경우, 성능 저하가 발생함
- 추가적으로 합성된 mel-spectrogram을 확인해 보면, diffusion refiner는 VAEFS의 over-smoothing 문제를 해결할 수 있는 것으로 나타남

- Style Interpretability
- ControlVAE latent space
에서 disentangling을 확인해 보면z - 아래 그림과 같이 energy, pitch 등의 다양한 speaking style이 나타남
- ControlVAE latent space

반응형