티스토리 뷰
Paper/TTS
[Paper 리뷰] DETS: End-to-End Single-Stage Text-to-Speech via Hierarchical Diffusion GAN Models
feVeRin 2024. 5. 16. 10:02반응형
DETS: End-to-End Single-Stage Text-to-Speech via Hierarchical Diffusion GAN Models
- End-to-End text-to-speech는 여전히 naturalness와 prosody diversity 측면에서 한계가 있음
- DETS
- Hierarchical denoising diffusion GAN을 도입한 end-to-end framework
- Denoising distribution을 모델링하기 위해 non-Gaussian multi-modal function을 채택하여 다양한 pitch와 rhythm을 반영할 수 있는 one-to-many relationship을 학습
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- Text-to-Speech (TTS)는 주어진 text를 speech로 변환하는 것을 목표로 함
- 이때 autoregressive model은 word repetition, skipping 등의 robustness 문제와 상당히 느린 추론 속도를 가지므로, non-autoregressive end-to-end 방식을 주로 활용함
- 대표적으로 VITS는 normalizing flow와 adversarial training을 통해 ground-truth 수준의 MOS를 달성했음 - BUT, 여전히 end-to-end TTS 모델은 naturalness와 prosody diversity 측면에서 개선의 여지가 남아있음
- 특히 Denoising Diffusion Probabilistic Model (DDPM)은 image 뿐만 아니라 audio 합성에서도 좋은 성능을 보이고 있으므로, TTS의 diversity 향상을 위해 고려할만함
- 이때 autoregressive model은 word repetition, skipping 등의 robustness 문제와 상당히 느린 추론 속도를 가지므로, non-autoregressive end-to-end 방식을 주로 활용함
-> 그래서 end-to-end TTS를 위해 hierarchical denoising diffusion GAN을 채택한 DETS를 제안
- DETS
- 생성된 음성의 naturalness와 diversity를 개선하기 위해, conditional GAN은 denoising distribution을 모델링하는 non-Gaussian multi-modal function을 활용하여 diffusion duration predictor와 speech decoder를 구성
- 이를 통해 1 denoising step 만으로도 high-fidelity의 음성을 합성하도록 함
< Overall of DETS >
- Naturalness와 diversity가 개선된 TTS를 위한 hierarchical architecture를 채택
- 다양한 pitch, rhythm을 반영할 수 있는 one-to-many relationship을 express 하는 diffusion duration predictor와 speech decoder를 도입
- 결과적으로 기존 TTS 모델보다 뛰어난 성능을 달성
2. Method
- DETS는 adverasrial learning을 적용한 diffusion generator decoder와 diffusion duration predictor를 활용함
- Diffusion Duration Predictor
- VITS는 flow-based stochastic duration predictor를 사용해 naturalness를 향상했지만, flow-based method는 다른 duration에 대한 exploration이 제한적임
- 즉, stochastic sample에만 의존하면 real speech의 intonation을 전달하기 어려움
- 따라서 DETS는 더 높은 naturalness와 diversity를 위해 adversarial training이 적용된 diffusion duration predictor를 도입함
- 먼저
를 Monotonic Alignment Search (MAS)를 통해 얻은 durationx0 ,d 를 duration predictor에서 예측된 durationx′0 라고 하자ˆd - 그러면 diffusion duration predictor training은:
(Eq. 1)xt=√ˉαtx0+√1−ˉαte,x′0=Gθ1(Z,xt,t)
- ,ˉαt=∏Ti=1αi :αi 의 constant parameter (e )e∼N(0,I)
- : posteriror encoder hidden state,Z : generatorGθ1 - 여기서 discriminator는:
(Eq. 2)Dϕ1(xt−1,x′t−1)=real/fake
- Discriminator 은 puerly convolution network와 learnable parameterDϕ1 을 가지는ϕ1 과 같이 표현됨Dϕ1(xt−1,x′t−1)
- 먼저
- 결과적으로 DETS는 denoising step이 큰 discrete-time diffusion model에 중점을 두고, conditional GAN을 사용하여 denoising distribution을 모델링함
- 즉, denoising function은 다음과 같이 모델링 됨:
(Eq. 3)pθ1(xt−1|xt,Z)=∫p(Z)q(xt−1|xt,x0=Gθ1(Z,xt,t))dZ
- 는x0 로 parameterize 된 denoising diffusion GAN functionθ1 를 통해 diffused sampleGθ1(Z,xt,t) 로부터 예측됨xt - Training 중에
은 posterior distributionx′t−1 를 통해 sampling 됨q(x′t−1|x′0,xt)
- :x′0 의 reconstructed versionx0 - 이후 예측된 tuple
은 discriminator(x′t−1,xt−1) 에 전달되어 해당하는 bonafide counterpartDϕ1 에 대한 divergence(x′t−1,xt) 를 계산함Dadv
- 즉, denoising function은 다음과 같이 모델링 됨:

- Diffusion Acoustic Decoder
- Diffusion acoustic decoder는 prior/posterior encoder에서 얻은 latent variable hidden state
를 input으로 사용하여 audio waveformZ 를 생성함y0 - 앞선 duration predictor와 마찬가지로, acoustic decoder denoising function은 다음과 같이 모델링 됨:
(Eq. 4)pθ2(yt−1|yt,Z)=∫p(Z)q(yt−1|yt,y0=Gθ2(Z,yt,t))dZ - 이때 가장 작은
를 가진다는 가정하에서 (T ) denoising diffusion GAN을 구성함T=1 - 즉, DETS는 conditional GAN-based acoustic generator decoder
와 conditional GAN-based duration predictorpθ2(yt−1|yt) 를 training 해야 함pθ1 - 여기서 denoising step 당 divergence
를 최소화하는 adversarial loss를 사용하여 true audio와 duartion distributionDadv 를 근사:q(xt−1|xt),q(yt−1|yt)
(Eq. 5)minθ∑t≥1Eq(xt)[Dadv(q(xt−1|xt)||pθ(xt−1|xt))]+minθ∑t≥1Eq(yt)[Dadv(q(yt−1|yt)||pθ2(yt−1|yt))]
- : Kullback-Leibler DivergenceDadv
- 즉, DETS는 conditional GAN-based acoustic generator decoder
- 결과적으로 training procedure는 conditional GAN generator와
operation을 수행하는 ability 간의 alignment로 볼 수 있음pθ(⋅),qθ(⋅)
- 해당 objective는 각 denoising iteration 동안 divergence 를 최소화하는 adversarial loss를 통해 얻어짐Dadv
- 이때 denoising diffusion acoustic generator decoder를 implicit denoising model로 parameterize 함
- 앞선 duration predictor와 마찬가지로, acoustic decoder denoising function은 다음과 같이 모델링 됨:
- Training Loss
- DETS는 adversarial training을 위해,
- 다음의 2가지 discriminator를 활용함:
또는(x′t−1,xt−1) 을 distinguish 하기 위한 JCU discriminator(y′t−1,yt−1) Dϕ1,Dϕ2 - Decoder
에 의해 생성된 outputGθ2 와 ground-truth waveformy′0 를 distinguish 하는 multi-period discriminatory0 Dϕ3
- Discriminator는 다음의 loss를 최소화하도록 training 됨:
(Eq. 6)LD=∑t≥1(Eq(xt)q(xt−1|xt)[(Dϕ1(xt−1,xt,t)−1)2]+Epθ1(xt−1|xt)[(Dϕ1(xt−1,xt,t))2]) +∑t≥1(Eq(yt)q(yt−1|yt)[(Dϕ2(yt−1,yt,t)−1)2]+Epθ2(yt−1|yt)[(Dϕ2(yt−1,yt,t))2]) +E(y0,Z)[(Dϕ3(y0)−1)2+(Dϕ3(Gθ3(Z)))2] - Acoustic decoder reconstruction loss는 다음과 같이 acoustic generator를 training 하는 additional loss로도 사용됨:
(Eq. 7)Lrecon=||y0−y′0||1
- 다음의 2가지 discriminator를 활용함:
3. Experiments
- Settings
- Dataset : LJSpeech
- Comparisons : Tacotron2, FastSpeech2, DiffGAN-TTS, VITS
- Results
- 전반적인 합성 품질 측면에서 제안된 DETS가 가장 우수한 성능을 보임
- Ablation study 측면에서 multi-period discriminator 와 diffusion duration predictorDϕ3 을 제거하는 경우, 성능 저하가 발생함Gθ1

- 각 모델에서 생성된 utterance length를 비교해 보면, DiffGAN-TTS는 deterministic duration predictor로 인해 fixed-length utterance를 생성함
- 반면 DETS는 Tacotron2와 유사한 length distribution을 따르므로 더 다양한 length distribution을 가질 수 있음

반응형