티스토리 뷰
Paper/TTS
[Paper 리뷰] PVAE-TTS: Adaptive Text-to-Speech via Progressive Style Adaptation
feVeRin 2024. 7. 25. 09:46반응형
PVAE-TTS: Adaptive Text-to-Speech via Progressive Style Adaptation
- Adaptive text-to-speech는 limited data에서 speaking style을 학습하기 어렵기 때문에 새로운 speaker에 대한 합성 품질이 떨어짐
- PVAE-TTS
- Style에 점진적으로 adapting 하면서 data를 생성하는 Progressive Variational AutoEncoder를 채택
- 추가적으로 adaptiation 성능을 향상하기 위해 Dynamic Style Layer Normalization을 도입
- 논문 (ICASSP 2022) : Paper Link
1. Introduction
- Text-to-Speech (TTS) system을 training 하기 위해서는 고품질의 audio가 필요하므로 time-consuming 하고 laborous 함
- 따라서 small training data로 고품질의 음성을 합성할 수 있는 adaptive TTS가 요구됨
- 이를 위해 새로운 speaker의 audio에서 추출된 speaker embedding에 따라 음성을 condition 하는 zero-shot adaptation을 사용할 수 있음
- 대표적으로 Meta-StyleSpeech는 mel-encoder의 speaker embedding과 episodic meta-learning을 활용 - 한편으로 pre-trained TTS model을 fine-tuning 하는 adaptation 방식을 활용할 수도 있음
- 대표적으로 AdaSpeech는 acoustic condition modeling과 Conditional Layer Normalization (CLN)을 도입
- 이를 위해 새로운 speaker의 audio에서 추출된 speaker embedding에 따라 음성을 condition 하는 zero-shot adaptation을 사용할 수 있음
- BUT, 여전히 adaptive TTS로 합성된 audio는 naturalness와 similarity가 부족하다는 한계가 있음
- 이는 tone, stress 등의 extensive speaking style information을 few sample 만으로는 학습하지 못하기 때문
- 따라서 small training data로 고품질의 음성을 합성할 수 있는 adaptive TTS가 요구됨
-> 그래서 limited data에서도 다양한 style adaptation을 지원할 수 있는 PVAE-TTS를 제안
- PVAE-TTS
- Progressive Variational AutoEncoder (PVAE)를 도입하여 점진적으로 style-normalized representation을 추출하고 style adaptation을 수행
- 이를 통해 limited data에서도 다양한 speaking style을 점진적으로 학습하여 고품질 생성이 가능 - Adaptation 품질을 향상하기 위해 Dynamic Style Layer Normalization (DSLN)을 추가
- Convolution operation을 통해 model이 style에 효과적으로 adapt 하도록 지원함
- Progressive Variational AutoEncoder (PVAE)를 도입하여 점진적으로 style-normalized representation을 추출하고 style adaptation을 수행
< Overall of PVAE-TTS >
- PVAE와 DSLN을 활용한 adaptive TTS model
- 결과적으로 기존보다 뛰어난 합성 품질을 달성
2. Progressive Variational AutoEncoder
- Style에는 다양한 factor가 포함되어 있기 때문에 적은 data로 style adaptation을 수행하는 것은 어려움
- 따라서 논문은 bidirectional-inference variational autoencoder에 기반한 PVAE를 도입함
- 여기서 prior는
로, 근사 posterior는pθ(x,z)=pθ(x|z1)[∏L−1l=1pθ(zl|zl+1)]pθ(zL) 로 정의된다고 하자qϕ(z|x)=qϕ(z1|x)[∏L−1l=1qϕ(zl+1|zl)]
- : latent variable의 hierarchy,z=z1,...,zL : hierarchy 수L - 그러면 PVAE는 deterministic bottom-up path와 top-down path로 구성되고 서로 parameter를 sharing 함
- Bottom-up path를 따라 PVAE는 data
에서 progressively style-normalized feature를 추출하고x - Top-down path를 따라 stored style-normalized feature를 사용하여 style-adapted feature를 생성하고, evidence lower bound를 최대화함:
(Eq. 1)L(θ,ϕ)≡Eqϕ(z|x)[logpθ(x|z)]−DKL(qϕ(z1|x)||p(z1)) −∑Ll=2Eqϕ(z<l|x)[DKL(qϕ(zl|x,z<l)||pθ(zl|z<l))]
- Bottom-up path를 따라 PVAE는 data
- 추가적으로 PVAE는 bottom-up path를 따라
와 같이 점진적으로 speaker information을 remove 함P(ˆs=si|z1,i)≥...≥P(ˆs=si|zL,i)
- : predicted styleˆs
- : stylezl 를 가지는 datasi∈S 로부터 얻어지는 progressively style-normalized representation (x : style set)S
3. PVAE-TTS
- 앞선 PVAE를 확장하여 PVAE-TTS는 phoneme encoder, mel-encoder, variance adaptor, 4 stack의 PVAE block으로 구성됨
- 각 PVAE block은 FastSpeech2의 FFT block을 기반으로 Progressive Top-Down (PTD) block과 Progressive Bottom-Up (PBU) block을 가짐
- Phoneme encoder, variance adaptor 역시 FastSpeech2 architecture를 따름 - 한편으로 multi-speaker TTS로 확장하기 위해 Meta-StyleSpeech와 같이 mel-encoder를 사용해 style embedding
를 추출함e
- 이후 style embedding 를 phoneme-level에서 duration/pitch/energy를 예측하는 각 variance adaptor의 input에 concatenate 함e
- 각 PVAE block은 FastSpeech2의 FFT block을 기반으로 Progressive Top-Down (PTD) block과 Progressive Bottom-Up (PBU) block을 가짐

- Progressive Style Normalization
- Bottom-up path는 style information을 progressively remove 하여 hierarchical feature를 추출하는 것을 목표로 함
- 이때 style information을 remove 하기 위해 3, 4번째 PBU block에 Instance Normalization (IN)을 적용하고, 동일한 PBU block에 information bottleneck layer를 추가함
- 이를 통해 각 PBU block은 progressively style-normalized representation을 생성할 수 있음
- Information Sharing
- 각 PBU, PTD block에서 prior와 근사 posterior distribution의 parameter
는 각 block의 preceding 1D convolution으로 얻어짐{μl,Σl},{Δμl1,ΔΣl1},{Δμl2,ΔΣl2} - 그러면 prior distribution
와 근사 posterior distributionpθ(zl|z<l,y) 는:qϕ(zl|z<l,x,y)
(Eq. 2)pθ(zl|z<l,y):=N(μl,Σl)
(Eq. 3)qϕ(zl|z<l,x,y):=N(μl+Δμl1+Δμl2,Σl⋅ΔΣl1⋅ΔΣl2)
- : covariance matrix,Σ : mel-spectrogram,x : texty
- 이때 분산은 음수가 될 수 없으므로, 에 softplus function을 적용함Σ - 근사 posterior distribution은 top-down prior information으로부터 bottom-up path와 generative distribution의 근사 likelihood를 포함하는 overall information으로 볼 수 있음
- Training 중에 latent variable
은 근사 posteriorzl 에서 sampling되고, 추론 시에는 priorqϕ(zl|z<l,x,y) 에서 sampling 됨pθ(zl|z<l,y) - 해당 architecture를 통해 bottom-up path는 style-normalized information을 top-down path와 share 하므로, progressive style adaptation을 지원할 수 있음
- 그러면 prior distribution
- Progressive Style Adaptation
- Top-down path를 따라 text information은 progressive style adaptation을 통해 mel-spectrogram으로 변환됨
- 이때 각 PTD block은 PBU block이 share 하는 progressively style-normalized feature를 사용하여 style-adapted feature를 생성함
- 한편으로 AdaSpeech의 CLN과 Meta-StyleSpeech의 SALN은 element-wise product나 matrix addition을 사용하여 encoder output에 style embedding
를 반영함e
- BUT, 해당 simple operation으로는 다양한 style information을 효과적으로 반영하기 어려움 - 따라서 PVAE-TTS에서는 DSLN을 통해 style embedding
로 condition 되는 hidden vectore 를 input으로 사용함h - 먼저 filter weight
를 예측하기 위해 single linear layer를 추가하고We 에서 biase 를 얻음be - 이후 DSLN은 1D group-convolution을 수행하여 style-adapted feature를 생성함:
(Eq. 4)DSLN(h,e)=We⊙LN(h)+be
- : nomalized⊙ 와 주어진 weighth , biasWe 에 대한 convolution operationbe
- 는 learnable parameter가 아니라 주어진 style{We,be} 에 따라 adaptively predict 됨e
- 먼저 filter weight
- 결과적으로 아래 그림과 같이 모든 PTD block에 DSLN이 추가되고, 해당 DSLN을 통해 PVAE-TTS는 high-adaptation을 지원할 수 있음

- Training Objectives
- PVAE-TTS는 variational inference를 수행함
- 이때 text information을 사용하여 top-down path를 따라 mel-spectrogram을 생성:
(Eq. 5)Lrecon=−Eqϕ(z|x,y)[logpθ(x|z,y)]
(Eq. 6)LKL=DKL(qϕ(z1|x,y)||p(z1|y))+∑Ll=2Eqϕ(z<l|x,y)[DKL(qϕ(zl|x,y,z<l)||pθ(zl|y,z<l))] - PVAE-TTS의 overall loss function은:
(Eq. 7)Ltotal=Lrecon+βLKL+λLvar
- : 첫 20% training step 동안β 에서0 로 증가하는 값,1 λ=1
- : variance predictor의Lvar distance의 합L2
- 이때 text information을 사용하여 top-down path를 따라 mel-spectrogram을 생성:
4. Experiments
- Settings
- Dataset : LibriTTS, VCTK
- Comparisons : FastSpeech2, Meta-StyleSpeech
- Results
- 전체적으로 PVAE-TTS가 가장 우수한 성능을 달성함

- Zero-shot
, few-shot◊ adaptation측면에서도 PVAE-TTS의 성능이 가장 뛰어남⋆

- PBU block의 효과를 알아보기 위해 PBU block에서 speaker ID를 classify 하는 classifier를 training 해보면
- IN만 사용하거나 bottleneck만을 사용하면 speaker information이 조금만 제거됨
- 반면 IN, information bottleneck을 모두 사용하는 경우, speaker information을 점진적으로 제거 가능

- Ablation study 측면에서 각 component를 제거하는 경우 성능 저하가 발생함

반응형