티스토리 뷰

반응형

StyleSpeech: Self-Supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis


  • Audiobook을  위한 음성 합성은 generalized architecture와 training data의 unbalanced style distribution으로 인해 한계가 있음
  • StyleSpeech
    • Expressive audiobook synthesis를 위해 VQ-VAE-based pre-training을 통한 self-supervised style enhancing method를 적용
    • Text style encoder는 large-scale unlabeled text-only data로 pre-train 됨
    • VQ-VAE-based spectrogram style extractor는 complex style variation을 cover 하는 audio data를 사용하여 self-supervised 방식으로 pre-train 됨
    • 이후 2개의 encoder-decoder path를 가지는 architecture를 활용하여 style extractor의 guidance에 따라 pronunciation과 high-level style을 각각 모델링함
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • 기존 Text-to-Speech (TTS) 모델들은 대부분 neutral speaking style로 음성을 합성하므로 expressiveness의 한계가 존재함
    • 특히 audiobook과 같은 long-form expressive data에 대해서는 wide-ranging voice characteristic으로 인해 averaged prosodic style로 collapse 되는 경향이 있음 
    • 이때 해당 prosody 문제를 개선하기 contextual informaiton을 반영하는 hierarchical context encoder나 BERT embedding 등을 추가하여 style prediction을 개선하는 방법들을 고려할 수 있음
      - BUT, phoneme, timbre, style 등 너무 많은 information이 encoder에 mix 되므로 mel-spectrogram decoder로 쉽게 처리하기 어려움  
    • 추가적으로 audiobook dataset의 style distribution은 unbalance 하므로, style이나 expressiveness representation을 모델링하는데 근본적인 한계가 있음
      - Dataset에서 대부분의 sentence는 plain narration voice를 가지고 일부만 rich style variation을 가짐

-> 그래서 음성 합성에서 expressiveness 문제를 해결하기 위해 VQ-VAE-based pre-training을 통한 self-supervised style enhancing method인 StyleSpeech를 제안

 

  • StyleSpeech
    • 먼저 StyleSpeech의 text style encoder는 unlabled text-only data를 통해 pre-training 됨
    • 다음으로 VQ-VAE-based spectrogram style extractor는 여러 domain의 expressive scenario를 cover 하는 large audio data를 사용하여 pre-train 됨
    • 이후 style extractor의 guidance에 따라 2개의 encoder-decoder path를 가지는 architecturer를 채택

< Overall of StyleSpeech >

  • 더 나은 style representation latent space를 모델링하고 unbalanced style distribution 문제를 완화하는 VQ-VAE-based style extractor를 도입하고 self-supervised 방식으로 complex style variation을 반영
  • Pronunciation과 high-level style expressiveness variation을 각각 모델링하는 2개의 encoder-decoder path를 가지는 TTS architecture
  • 결과적으로 기존보다 더 나은 naturalness와 expressiveness를 달성

2. Method

  • StyleSpeech는 interaction이 있는 2개의 encoder-decoder path (Fine-grained phoneme path, Coarse-grained style path)로 구성됨

- Phoneme Encoder-Decoder Path

  • Phoneme encoder-decoder path는 pronunciation 추출을 목표로 함
    • 여기서 FastSpeech2를 기반으로 phoneme encoder와 decoder는 sefl-attention layer, 1D convolution, residual connection, layer normalization을 가지는 Feed-Forward Transformer (FFT) block으로 구성됨
    • 아래 그림과 같이 phoneme hidden embedding $\mathcal{H}_{p}$는 extended variance adaptor의 Length Regulator (LR)에 의해 frame-level phoneme representation $\mathcal{H}'_{p}$로 repeat 됨
    • 이때 해당 path는 pitch, energy 등을 반영하지 않고 $\mathcal{H}'_{p}$만 phoneme decoder에 전달함

Overall of StyleSpeech

- Style Encoder-Decoder Path

  • Style encoder-decoder path는 합성된 음성에 대한 style 모델링을 목표로 함
    • Text style encoder와 spectrogram style extractor는 각각 contextual text와 mel-spectrogram에서 style-related representation을 학습하도록 pre-train 됨
    • 추가적으로 style decoder는 decoding stage에서 explicit/implicit style reprsentation을 잘 fusion 하기 위해 채택됨
  • Style Encoder
    • Context-aware Augmented Deep Embedded Clustering (CADEC) encoder를 style encoder로써 채택함
      1. 여기서 semantic feature를 추출하기 위해 pre-trained BERT를 backbone으로 사용하고 emotion feature를 추출하기 위해 emotion lexicon을 사용
      2. 특히 data augmentation을 통한 contrastive learning과 autoencoder를 활용한 deep embedded clustering을 통해 unlabeled plain text에 대해서도 context로부터 style-related represnetation을 얻을 수 있음
    • 결과적으로 CADEC encoder는 contextual text $C$를 통해 global style representation을 output 함:
      (Eq. 1) $\mathcal{H}_{s}=CADEC(C_{0})$
      (Eq. 2) $\mathcal{H}_{cs}=Concat[CADEC(C_{i}),\, i=-k,...,k]$
      - $Concat[\cdot]$ : concatenation operation
      - $\mathcal{H}_{s}$ : current utterance의 contextual text $C_{0}$에 대한 hidden style embedding
      - $\mathcal{H}_{cs}$ : $2k+1$ neighbor utterance에 대한 hidden style embedding
  • Extended Variance Adaptor
    • FastSpeech2를 기반으로 하는 extended variance adaptor는 duration, pitch, energy 등의 style-related feature를 explicit 하게 모델링함
    • 이를 위해 phoneme encoder output $\mathcal{H}_{p}$와 style encoder output $\mathcal{H}_{s}$는 서로 add 되어 $\mathcal{H}_{ps}$로써 각각 pitch/energy/duration predictor로 전달됨
    • 예측된 pitch와 energy는 implicit style embedding $\mathcal{H}_{s}$와 함께 repeat 되어 length regulator에 의해 $\mathcal{H}'_{s}$를 embedding 하는 frame-level style embedding이 됨
  • Style Extractor
    • 아래 그림과 같이 unlabled large-scale audio dataset의 mel-spectrogram에서 style-related latent representation을 추출하기 위해 VQ-VAE를 style extractor로써 채택함
      1. 여기서 encoder와 decoder는 batch normalization, ReLU activation을 가지는 2개의 2D convolution과 여러 ResBlock layer를 사용해 대칭적으로 구성됨
      2. 추가적으로 one-hot speaker embedding condition도 decoder에 전달되어 timbre의 영향을 제거함
    • 이때 mel-spectrogram의 low-frequency band (각 frame 당 첫 20개 bin) $\mathcal{M}el_{20}$만을 input으로 사용함
      - 이는 full band에 비해 더 적은 content information을 가지면서 거의 완전한 style을 포함하고 있기 때문
    • 추가적으로 style-related latent representation을 추출할 수 있도록 model을 guide 하기 위해, frame-level pitch $\mathcal{H}_{p}$, frame-level energy $\mathcal{H}_{e}$, text feature $\mathcal{H}_{s}$를 additional input으로 사용함
    • 최종적으로 다음과 같이 well-pretrained style extractor의 vector quantization layer ouput에서 discrete style-related representation $\mathcal{H}_{se}$를 추출할 수 있음:
      (Eq. 3) $\mathcal{H}_{se}=VQ\text{-}VAE(\mathcal{M}el_{20},\mathcal{H}_{p},\mathcal{H}_{e},\mathcal{H}_{s})$
  • Style Decoder
    • Style decoder는 decoding stage에서 pitch/energy와 같은 explicit style feature와 implicit style embedding을 integrating 하도록 설계됨
    • 이를 위해 hierarchical context를 반영할 수 있는 residual connection이 있는 cross-attention module이 사용됨
      - 여기서 current utterance의 frame-level style embedding $\mathcal{H}'_{s}$을 query로, style encoder의 hierarchical context style embedding $\mathcal{H}_{ce}$를 key/value로 사용함
    • 최종적으로 batch normalization, ReLU activation을 가지는 1D-convolustion layer를 사용하여 style-related representation을 학습하고 style embedding $\mathcal{H}_{sd}$를 output 함

VQ-VAE 기반 Style Extractor

- Interaction Between Phoneme and Style Paths

  • 기존의 expressive TTS 작업은 style information을 단순히 encoder에 추가하므로 mel-spectrogram decoder에 대한 문제가 발생함
    • 따라서 StyleSpeech는 encoder 뿐만 아니라 mel-spectrogram decoder에도 phoneme과 style path에 대한 feature interaction을 추가
    • 구체적으로,
      1. Style decoder의 output embedding $\mathcal{H}_{sd}$는 style과 pronunciation information을 fully integrate 하기 위해 additional style input으로 phoneme decoder의 각 FFT block에 전달됨
      2. 이후 2개의 encoder-decoder path를 기반으로 하는 mel-spectrogram decoder의 well-mixed output embedding $\mathcal{H}'_{ps}$를 post-linear layer에 전달하여 최종적으로 mel-spectrogram을 reconstruct 함

- Training Strategy and Inference Procedure

  • StyleSpeech는 다음의 3-stage로 학습
    • First stage에서 style encoder는 large-scale text data로 training 되고, 
    • Second stage에서는 large-scale audio data를 사용하여 style extractor를 training 함
      - 이때 기존 VQ-VAE와 비슷하게 total training loss는 mel-spectrogram reconstruction loss, dictionary upadate를 위한 vector quantization loss, encoder의 embedding commit을 위한 commitment loss로 구성됨
    • Third stage에서는 전체 TTS model이 audiobook data를 통해 training 됨
      1. 여기서 style encoder와 style extractor의 parameter는 gradient update 없이 frozen 됨
      2. 추가적으로 style loss $\mathcal{L}_{style}$이 pre-trained style extractor에 대한 guidance를 제공하기 위해 encoder-decoder path에 적용됨:
        (Eq. 4) $\mathcal{L}_{style}=MSE(\mathcal{H}_{sd},\mathcal{H}_{se})$
        - $MSE$ : Mean Square Error loss, $\mathcal{H}_{sd}$ : style decoder output, $\mathcal{H}_{se}$ : style extractor output
      3. 결과적으로 total loss는:
        (Eq. 5) $\mathcal{L}_{total}=\mathcal{L}_{tts}+\alpha\mathcal{L}_{style}$
        - $\mathcal{L}_{tts}$ : FastSpeech2의 loss와 같음
    • 추론 시 style extractor는 사용되지 않음
      - 결과적으로 StyleSpeech는 phoneme과 context input을 사용하여 expressive style로 음성을 합성함

3. Experiments

- Settings

  • Dataset : Madarin Dataset (internal)
  • Comparisons : FastSpeech2, FastSpeech2+CADEC

- Results

  • Subjective/Objective Comparison
    • 정성적, 정량적 metric 모두에서 제안된 StyleSpeech가 가장 우수한 성능을 보임

모델 성능 비교

  • Analysis for the Pre-training Strategy
    • Style embedding에 대한 $t$-SNE 결과를 확인해 보면, large dataset을 사용했을 때 각 style들이 더 나은 cohesion과 distribution을 보임
    • 즉, unbalance 하고 limit 된 audiobook dataset만으로 style representation latent를 학습하는 데는 한계가 있으므로, large dataset을 통한 pre-training을 사용하는 것이 성능 향상에 효과적임

Style Embedding Space 시각화 (a) Audiobook Dataset만으로 train한 경우 (b) Large Dataset을 사용한 경우

  • Ablation Study
    • Ablation study 측면에서 style encoder, style decoder, style extractor를 제거했을 때 성능 저하가 발생함
    • 즉, 각 component 모두 StyleSpeech의 성능 향상에 주요함

Ablation Study 결과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday