티스토리 뷰
Paper/TTS
[Paper 리뷰] IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
feVeRin 2024. 5. 5. 09:21반응형
IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge
- Text-to-Speech에서 style transfer는 중요해지고 있음
- IST-TTS
- Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
- 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함 - Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상
- 더 나은 transfer 성능을 위해 ControlVAE를 도입해 reconstruction 품질을 향상하면서 interpretability를 확보
- Variational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음
- 논문 (INTERSPEECH 2023) : Paper Link
1. Introduction
- 최근의 Text-to-Speech (TTS)는 controllability, expressiveness의 향상에 목표를 두고 있음
- TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
- FastSpeech는 autoregressive 모델을 teacher로 사용하여 duration predictor를 학습하고 length regulator를 통해 duration information을 control 함
- FastSpeech2는 Montreal Forced Aligner (MFA)를 활용하고, style control을 위해 supervised 방식으로 pitch, energy predictor를 학습함 - 이때 TTS pipeline은 일반적으로 intermediate representation을 생성하는 acoustic model과 raw waveform을 합성하는 vocoder로 구성됨
- VITS와 같이 VAE에서 생성된 latent variable을 연결하여 end-to-end 방식으로 동작할 수도 있음 - 한편으로 style transfer를 위해서는 강력한 style encoder를 설계할 수 있어야 함
- 이를 위해 Meta-StyleSpeech는 style adaptive layer norm과 meta-learning을 활용하고, STYLER는 information bottleneck을 통한 speech decomposition을 사용하여 style factor를 반영함
- GenerSpeech의 경우 multi-level style adaptor와 generalizable content adaptor를 사용 - BUT, 위와 같은 방법들은 style interpretability가 떨어짐
- TTS 모델들은 다양한 방식으로 controllable style attribute를 반영하고 있음
-> 그래서 TTS 작업에서 더 나은 style representation과 interpretable disentangled style latent space를 제공할 수 있는 IST-TTS를 제안
- IST-TTS
- VAE-based style encoder를 채택하여 interpretable latent space에 access 하고 diffusion probabilistic model (DPM)을 결합하여 over-smoothing 문제를 극복
- 생성된 style representation의 diversity를 향상하기 위해 Quantized VAE의 diffusion bridge를 도입
- 추가적으로 더 나은 reconstruction 품질과 interpretability를 위해 ControlVAE를 사용
< Overall of IST-TTS >
- Refined mel-spectrogram을 얻기 위해 VAE와 DPM을 결합한 TTS 모델
- 더 나은 style transfer를 위해 latent space에서 style representation의 diversity를 모델링하는 Quantized VAE의 diffusion bridge를 도입
- ControlVAE를 통해 기존의 VAE 보다 더 나은 reconstruction ability를 달성하고 결과적으로 우수한 품질과 style interpretability를 달성
2. Background
- Diffusion Probabilistic Models
- Denoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 뛰어난 성능을 보이고 있음
- Diffusion process와 reverse process는 diffusion probabilistic model로 주어지고, 이때 data distribution을 학습하기 위해 denoising network $\theta$를 활용할 수 있음
- Data distribution을 $q(x_{0})$, $x_{1},...,x_{T}$를 동일한 dimension을 가지는 variable sequence라 하자
- 그러면 diffusion process는 data $x_{0}$에서 latent variable $x_{T}$까지의 fixed Markov chain으로 정의됨:
(Eq. 1) $q(x_{t}|x_{t-1})=\mathcal{N}(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}I)$
(Eq. 2) $q(x_{1},...,x_{T}|x_{0})=\prod_{t=1}^{T}q(x_{t}|x_{t-1})$ - Reverse process는 shared $\theta$에 의해 parameterize 된 $x_{T}$에서 $x_{0}$까지의 Markov chain으로, Gaussian noise에서 sample을 recover 하는 것을 목표로 함:
(Eq. 3) $p_{\theta}(x_{t-1}|x_{t})=\mathcal{N}(x_{t-1};\mu_{\theta}(x_{t},t),\sigma^{2}_{t}I)$
(Eq. 4) $p_{\theta}(x_{0},...,x_{T-1}|x_{T})=\prod_{t=1}^{T}p_{\theta}(x_{t-1}|x_{t})$
- $\alpha_{t}=1-\beta_{t},\,\bar{\alpha}_{t}=\prod_{t=1}^{t}\alpha_{t}$
- $\mu_{\theta}, \sigma_{t}^{2}$ : 각각 Gaussian의 평균, 표준편차
- 그러면 diffusion process는 data $x_{0}$에서 latent variable $x_{T}$까지의 fixed Markov chain으로 정의됨:
- 최종적으로 얻어지는 training objective는:
(Eq. 5) $L_{DDPM}=\mathbb{E}_{t,x_{0},\epsilon}\left[|| \epsilon-\epsilon_{\theta}\left( \sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}}_{t}\epsilon, t\right) ||_{2}^{2}\right]$
- $\epsilon$ : Gaussian noise, $\epsilon_{\theta}(\cdot)$ : model output - Sampling 시에는 다음의 formulation을 사용해 sampling 함:
(Eq. 6) $x_{t-1}=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}}_{t}}\epsilon_{\theta}(x_{t},t)\right)+\sigma_{t}z$
- $\epsilon\sim\mathcal{N}(0,I), \, p_{z}=\mathcal{N}(z;0,I)$
- $\sigma_{t}=\sqrt{\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}}\beta_{t}}$ - 결과적으로 모든 time step에 걸쳐 iterative sampling을 통해 final data distribution $p(x_{0})$를 얻음
- Variational AutoEncoder
- Variational AutoEncoder (VAE)에서 observed data distribution $p(x)$는 random latent variabel $z$의 random process로 생성된다고 하자
- 여기서 true posterior distribution $p_{\theta}(z|x)$는 undifferentiable marginal likelihood $p_{\theta}(x)$로 인해 intractable 함
- 이를 해결하기 위해 $q_{\phi}(z|x)$를 true posterior distribution $p_{\theta}(z|x)$에 대한 근사로 도입하면, $\log p_{\theta}(x)$에 대한 다음의 formulation을 얻을 수 있음:
(Eq. 7) $\log p_{\theta}(x)\geq \mathbb{E}_{q_{\phi}(z|x)}\left[\log \frac{p_{\theta}(x,z)}{q_{\phi}(z|x)}\right]=\mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)]-D_{KL}(q_{\phi}(z|x)||p_{\theta}(z))$ - VAE의 encoder는 diagonal covariance를 가지는 multivariate Gaussian을 모델링하고, 이때 prior는 standard multivariate Gaussian을 사용함:
(Eq. 8) $q_{\phi}(z|x)=\mathcal{N}(z;\mu_{\phi}(x),\sigma^{2}_{\phi}(x)I)$
(Eq. 9) $p_{z}=\mathcal{N}(z;0,I)$
- $q_{\phi}(z|x)$의 $\mu_{\theta}, \sigma^{2}(x)$는 neural network를 통해 학습되고, non-derivable 문제를 해결하기 위해 reparameterization trick이 VAE에 도입됨 - 결과적으로 각 $z$는 input $x$와 auxiliary noise variable $\epsilon$의 deterministic function으로써 계산됨:
(Eq. 10) $z=\mu_{\phi}(x)+\sigma_{\phi}(x)\odot \epsilon$
- $\odot$ : element-wise product
- Quantized VAE
- Quantized VAE는 기존 VAE encoder의 representation ability를 향상하기 위해 도입됨
- 먼저 Quantized VAE는 VAE output $z$에 discrete codebook component를 추가하여 VAE를 확장함
- 이때 $z$는 codebook의 모든 vector와 compare 되고, 가장 가까운 codebook vector가 VAE decoder로 전달됨 - 여기서 commitment loss와 codebook loss로 구성된 vector quantization loss는:
(Eq. 11) $L_{Q}=||sg[z]-q||_{2}^{2}+\gamma||z-sg[q]||_{2}^{2}$
- $z$ : VAE output, $q$ : codebook vector, $\gamma$ : commitment loss weight, $sg[\cdot]$ : stop gradient operation
- 먼저 Quantized VAE는 VAE output $z$에 discrete codebook component를 추가하여 VAE를 확장함
3. Method
- IST-TTS는 diffusion refiner, diffusion bridge, ControlVAE로 구성됨
- Model Architecture
- 먼저 reference mel-spectrogram은 style information을 추출하기 위해 reference encoder에 제공되고, style information은 ControlVAE를 통과하여 interpretable latent space $Z$를 얻음
- Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨
- 이때 IST-TTS는 다양한 style representation을 학습하기 위해 DiffWave의 diffusion bridge architecture를 활용함 - Acoustic model은 FastSpeech architecture를 기반으로 하고, Diffusion refiner는 VAE와 DPM을 결합하여 설계됨
- 추가적으로 speaker embedding은 x-vector를 통해 추출됨
- Duration predictor를 training 하고 distillation 과정을 대체하기 위해 MFA를 활용함
- Quantized embedding은 diffusion bridge에 의해 얻어진 다음 acoustic model에 전달됨
- Diffusion Refiner
- VAE와 DPM을 각각 two-stage pipeline, one-stage pipeline으로 통합할 수 있음
- Two-stage and One-tage Training Pipeline
- Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
- 논문에서는 해당 모델을 VAEFS라고 함 - Linear layer로 처리된 indermediate mel-spectrogram을 diffusion model의 condition으로 사용하여 diffusion refiner에 제공할 수도 있음
- 논문에서는 해당 모델을 VAEFS+2s라고 함 - 한편으로 One-tage piepline에서는 Diff-TTS를 따라 acoustic model을 구성할 수 있음
- 논문에서는 이를 VAEFS+1s라고 함
- Two-stage pipeline에서 model은 먼저 intermediate mel-spectrogram을 생성하고, vocoder에 공급되어 waveform을 얻음
- Conditional Diffusion Model
- IST-TTS의 diffusion refiner는 conditional diffusion model임
- Input이 diffusion model의 condition이 되기 위해서 external intermediate mel-spectrogram이나 decoder input이 필요하기 때문 - 이때 training objective는:
(Eq. 12) $L_{R}=\mathbb{E}_{t,x_{0},\epsilon,c}\left[ || \epsilon-\epsilon_{\theta}\left( \sqrt{\bar{\alpha}_{t}}x_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon,t,c\right)||_{2}^{2}\right]$
- $c$ : condition
- IST-TTS의 diffusion refiner는 conditional diffusion model임
- Two-stage and One-tage Training Pipeline
- Diffusion Bridge
- Quantized VAE는 vector quantization을 통해 latent feature를 discretize 하여 보다 expressive 한 sample을 생성함
- IST-TTS는 Quantized VAE의 expressiveness를 더욱 향상하기 위해 새로운 diffusion bridge를 제시
- 구체적으로, complex discrete distribution을 학습하기 위해 VAE output의 $z$ latent space인 continuous space에서 diffusion model을 사용함
- Diffusion bridge의 sampling process는 추론 시에만 사용됨 - Diffusion bridge에 대한 training loss는:
(Eq. 13) $L_{B}=\mathbb{E}_{t,z_{0},\epsilon}\left[ || \epsilon-\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}}z_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon,t\right)||_{2}^{2}\right]$
- ControlVAE
- Original VAE는 KL vanishing과 low reconstruction quality의 문제를 겪을 수 있으므로, 이를 해결하기 위해 IST-TTS는 controller와 basic VAE를 결합한 ControlVAE를 도입함
- 특히 non-linear proportional-integral (PI) controller는 training 중에 output KL-divergence를 feedback으로 사용하여 VAE objective에 더해진 weight를 automatically tuning 할 수 있음
- 여기서 PI controller의 weight $\beta(t)$는:
(Eq. 14) $\beta(t)=\frac{K_{p}}{1+\exp(e(t))}-K_{i}\sum_{j=0}^{t}e(j)+\beta_{\min}$
- $K_{p}, K_{i}$ : 각각 porpositional term, integral term의 coefficient
- $e(t)$ : 실제 KL value와 예측된 KL value 간의 error, $\beta_{\min}$ : constant - 그러면 ControlVAE의 loss는:
(Eq. 15) $L_{C}=\mathbb{E}_{q_{\phi}(z|x)}\left[\log p_{\theta}(x|z)\right]-\beta(t)D_{KL}(q_{\phi}(z|x)||p(z))$
- Reconstruction loss는 one-stage pipeline에서 DiffSinger와 같이 auxiliary feed-forward transformer decoder를 통해 계산됨 - 결과적으로 IST-TTS의 total training loss는:
(Eq. 16) $L_{All} = L_{C}+L_{R}+L_{Q}+L_{B}$
4. Experiments
- Settings
- Dataset : LibriTTS
- Comparisons : GenerSpeech
- Results
- Parallel Style Transfer
- FD, MCD를 비롯한 정량적 metric 측면에서 IST-TTS는 가장 우수한 성능을 보임
- MOS, SMOS 측면에서도 IST-TTS가 가장 뛰어난 성능을 달성함
- Non-Parallel Style Transfer
- Non-parallel style transfer는 text가 reference utterance에서 변경되는 경우에 해당함
- Non-paralle style transfer의 경우에도, 제안된 IST-TTS가 가장 우수한 성능을 보임
- Ablation Study
- Ablation study 측면에서 IST-TTS의 각 component를 제거하는 경우, 성능 저하가 발생함
- 추가적으로 합성된 mel-spectrogram을 확인해 보면, diffusion refiner는 VAEFS의 over-smoothing 문제를 해결할 수 있는 것으로 나타남
- Style Interpretability
- ControlVAE latent space $z$에서 disentangling을 확인해 보면
- 아래 그림과 같이 energy, pitch 등의 다양한 speaking style이 나타남
반응형
'Paper > TTS' 카테고리의 다른 글
댓글