티스토리 뷰

반응형

PVAE-TTS: Adaptive Text-to-Speech via Progressive Style Adaptation


  • Adaptive text-to-speech는 limited data에서 speaking style을 학습하기 어렵기 때문에 새로운 speaker에 대한 합성 품질이 떨어짐
  • PVAE-TTS
    • Style에 점진적으로 adapting 하면서 data를 생성하는 Progressive Variational AutoEncoder를 채택
    • 추가적으로 adaptiation 성능을 향상하기 위해 Dynamic Style Layer Normalization을 도입
  • 논문 (ICASSP 2022) : Paper Link

1. Introduction

  • Text-to-Speech (TTS) system을 training 하기 위해서는 고품질의 audio가 필요하므로 time-consuming 하고 laborous 함
    • 따라서 small training data로 고품질의 음성을 합성할 수 있는 adaptive TTS가 요구됨
      1. 이를 위해 새로운 speaker의 audio에서 추출된 speaker embedding에 따라 음성을 condition 하는 zero-shot adaptation을 사용할 수 있음
        - 대표적으로 Meta-StyleSpeech는 mel-encoder의 speaker embedding과 episodic meta-learning을 활용
      2. 한편으로 pre-trained TTS model을 fine-tuning 하는 adaptation 방식을 활용할 수도 있음
        - 대표적으로 AdaSpeech는 acoustic condition modeling과 Conditional Layer Normalization (CLN)을 도입
    • BUT, 여전히 adaptive TTS로 합성된 audio는 naturalness와 similarity가 부족하다는 한계가 있음
      - 이는 tone, stress 등의 extensive speaking style information을 few sample 만으로는 학습하지 못하기 때문

-> 그래서 limited data에서도 다양한 style adaptation을 지원할 수 있는 PVAE-TTS를 제안

 

  • PVAE-TTS
    • Progressive Variational AutoEncoder (PVAE)를 도입하여 점진적으로 style-normalized representation을 추출하고 style adaptation을 수행
      - 이를 통해 limited data에서도 다양한 speaking style을 점진적으로 학습하여 고품질 생성이 가능
    • Adaptation 품질을 향상하기 위해 Dynamic Style Layer Normalization (DSLN)을 추가
      - Convolution operation을 통해 model이 style에 효과적으로 adapt 하도록 지원함

< Overall of PVAE-TTS >

  • PVAE와 DSLN을 활용한 adaptive TTS model
  • 결과적으로 기존보다 뛰어난 합성 품질을 달성

2. Progressive Variational AutoEncoder

  • Style에는 다양한 factor가 포함되어 있기 때문에 적은 data로 style adaptation을 수행하는 것은 어려움
    • 따라서 논문은 bidirectional-inference variational autoencoder에 기반한 PVAE를 도입함 
    • 여기서 prior는 pθ(x,z)=pθ(x|z1)[L1l=1pθ(zl|zl+1)]pθ(zL)로, 근사 posterior는 qϕ(z|x)=qϕ(z1|x)[L1l=1qϕ(zl+1|zl)]로 정의된다고 하자
      - z=z1,...,zL : latent variable의 hierarchy, L : hierarchy 수
    • 그러면 PVAE는 deterministic bottom-up path와 top-down path로 구성되고 서로 parameter를 sharing 함
      1. Bottom-up path를 따라 PVAE는 data x에서 progressively style-normalized feature를 추출하고 
      2. Top-down path를 따라 stored style-normalized feature를 사용하여 style-adapted feature를 생성하고, evidence lower bound를 최대화함:
        (Eq. 1) L(θ,ϕ)Eqϕ(z|x)[logpθ(x|z)]DKL(qϕ(z1|x)||p(z1))
        Ll=2Eqϕ(z<l|x)[DKL(qϕ(zl|x,z<l)||pθ(zl|z<l))]
    • 추가적으로 PVAE는 bottom-up path를 따라 P(ˆs=si|z1,i)...P(ˆs=si|zL,i)와 같이 점진적으로 speaker information을 remove 함
      - ˆs : predicted style
      - zl : style siS를 가지는 data x로부터 얻어지는 progressively style-normalized representation (
      S : style set)

3. PVAE-TTS

  • 앞선 PVAE를 확장하여 PVAE-TTS는 phoneme encoder, mel-encoder, variance adaptor, 4 stack의 PVAE block으로 구성됨 
    • 각 PVAE block은 FastSpeech2의 FFT block을 기반으로 Progressive Top-Down (PTD) blockProgressive Bottom-Up (PBU) block을 가짐
      - Phoneme encoder, variance adaptor 역시 FastSpeech2 architecture를 따름
    • 한편으로 multi-speaker TTS로 확장하기 위해 Meta-StyleSpeech와 같이 mel-encoder를 사용해 style embedding e를 추출함
      - 이후 style embedding e를 phoneme-level에서 duration/pitch/energy를 예측하는 각 variance adaptor의 input에 concatenate 함

Overall of PVAE-TTS

- Progressive Style Normalization

  • Bottom-up path는 style information을 progressively remove 하여 hierarchical feature를 추출하는 것을 목표로 함 
    • 이때 style information을 remove 하기 위해 3, 4번째 PBU block에 Instance Normalization (IN)을 적용하고, 동일한 PBU block에 information bottleneck layer를 추가함 
    • 이를 통해 각 PBU block은 progressively style-normalized representation을 생성할 수 있음

- Information Sharing

  • 각 PBU, PTD block에서 prior와 근사 posterior distribution의 parameter {μl,Σl},{Δμl1,ΔΣl1},{Δμl2,ΔΣl2}는 각 block의 preceding 1D convolution으로 얻어짐
    • 그러면 prior distribution pθ(zl|z<l,y)와 근사 posterior distribution qϕ(zl|z<l,x,y):
      (Eq. 2) pθ(zl|z<l,y):=N(μl,Σl)
      (Eq. 3) qϕ(zl|z<l,x,y):=N(μl+Δμl1+Δμl2,ΣlΔΣl1ΔΣl2)
      - Σ : covariance matrix, x : mel-spectrogram, y : text
      - 이때 분산은 음수가 될 수 없으므로, Σ에 softplus function을 적용함
    • 근사 posterior distribution은 top-down prior information으로부터 bottom-up path와 generative distribution의 근사 likelihood를 포함하는 overall information으로 볼 수 있음
    • Training 중에 latent variable zl은 근사 posterior qϕ(zl|z<l,x,y)에서 sampling되고, 추론 시에는 prior pθ(zl|z<l,y)에서 sampling 됨 
    • 해당 architecture를 통해 bottom-up path는 style-normalized information을 top-down path와 share 하므로, progressive style adaptation을 지원할 수 있음 

- Progressive Style Adaptation

  • Top-down path를 따라 text information은 progressive style adaptation을 통해 mel-spectrogram으로 변환됨
    • 이때 각 PTD block은 PBU block이 share 하는 progressively style-normalized feature를 사용하여 style-adapted feature를 생성함
    • 한편으로 AdaSpeech의 CLN과 Meta-StyleSpeech의 SALN은 element-wise product나 matrix addition을 사용하여 encoder output에 style embedding e를 반영함
      - BUT, 해당 simple operation으로는 다양한 style information을 효과적으로 반영하기 어려움
    • 따라서 PVAE-TTS에서는 DSLN을 통해 style embedding e로 condition 되는 hidden vector h를 input으로 사용함
      1. 먼저 filter weight We를 예측하기 위해 single linear layer를 추가하고 e에서 bias be를 얻음 
      2. 이후 DSLN은 1D group-convolution을 수행하여 style-adapted feature를 생성함:
        (Eq. 4) DSLN(h,e)=WeLN(h)+be

        - : nomalized h와 주어진 weight We, bias be에 대한 convolution operation

        - {We,be}는 learnable parameter가 아니라 주어진 style e에 따라 adaptively predict 됨
    • 결과적으로 아래 그림과 같이 모든 PTD block에 DSLN이 추가되고, 해당 DSLN을 통해 PVAE-TTS는 high-adaptation을 지원할 수 있음 

PTD, PBU Block

- Training Objectives

  • PVAE-TTS는 variational inference를 수행함
    • 이때 text information을 사용하여 top-down path를 따라 mel-spectrogram을 생성:
      (Eq. 5) Lrecon=Eqϕ(z|x,y)[logpθ(x|z,y)]
      (Eq. 6) LKL=DKL(qϕ(z1|x,y)||p(z1|y))+Ll=2Eqϕ(z<l|x,y)[DKL(qϕ(zl|x,y,z<l)||pθ(zl|y,z<l))]
    • PVAE-TTS의 overall loss function은:
      (Eq. 7) Ltotal=Lrecon+βLKL+λLvar
      - β : 첫 20% training step 동안 0에서 1로 증가하는 값, λ=1
      - Lvar : variance predictor의 L2 distance의 합

4. Experiments

- Settings

- Results

  • 전체적으로 PVAE-TTS가 가장 우수한 성능을 달성함

모델 성능 비교

  • Zero-shot , few-shot adaptation측면에서도 PVAE-TTS의 성능이 가장 뛰어남

Zero-/Few-shot Adaptation 성능

  • PBU block의 효과를 알아보기 위해 PBU block에서 speaker ID를 classify 하는 classifier를 training 해보면
    • IN만 사용하거나 bottleneck만을 사용하면 speaker information이 조금만 제거됨
    • 반면 IN, information bottleneck을 모두 사용하는 경우, speaker information을 점진적으로 제거 가능

(a) Adaptation sample 수에 따른 MOS 비교 (b) PBU block의 효과

  • Ablation study 측면에서 각 component를 제거하는 경우 성능 저하가 발생함

Ablation Study 결과

 

반응형
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday