GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech

  • Cross-lingual text-to-speech는 다음의 어려움이 있음
    - Timbre, pronunciation은 서로 correlate 되어 있음
    - Speech style에는 language-agnostic, language-specific part가 포함되어 있음
  • GenerTTS
    • Pronunciation/style과 timbre를 disentangle 하기 위해 HuBERT-based information bottleneck을 도입
    • Language-specific information을 제거하기 위해 style, language 간의 mutual information을 최소화
  • 논문 (INTERSPEECH 2023) : Paper Link

1. Introduction

  • Cross-lingual timbre, style generalization text-to-speech (TTS)는 unseen target language의 style로 speech를 생성하는 것을 목표로 함
    • BUT, cross-lingual generalizable TTS를 위해서는 pronunciation, timbre, style을 decoupling 해야 함
      - Timbre, pronunciation은 highly correlate되어 있고, style과 pronunciation 역시 서로 mix 되어 있음
    • 해당 문제를 해결하기 위해,
      1. 대표적으로 Domain Adversarial Training을 고려할 수 있음
        - BUT, Gradient Reversal Layer (GRL)을 사용하여 network를 training 하는 것은 unstable 함
      2. Data Augmentation 방식은 data construction process가 복잡하고 품질 저하의 문제가 있음
    • 한편으로 Phonetic PosteriorGram (PPG), ASR bottleneck feature (ASR-BNF), Self-Supervised Learning (SSL) 기반의 speech representation을 고려할 수 있음 
      1. 해당 representation은 speech를 pronunciation, timbre 등으로 disentangle 할 수 있다는 장점을 가짐 
      2. 특히 HuBERT representation은 적절한 channel size와 layer를 선택하면 timbre information을 제거하면서 style, pronunciation information을 효과적으로 preserve 할 수 있음

-> 그래서 timbre, style, pronunciation을 효과적으로 disentangle 할 수 있는 GenerTTS를 제안


  • GenerTTS
    • Timbre를 style, pronunciation과 disentangle 하기 위해 HuBERT를 bottleneck feature로 적용
      - 이를 통해 cross-lingual TTS에서 pronunciation robustness와 speaker similarity를 보장
    • 이후 style, pronunciation을 disentangle 하기 위해 self-supervised presentation-based structure를 도입하여 fine-grained style을 modeling
      - 추가적으로 Mutual Information (MI) minimization constraint에 기반한 style adaptor를 도입

< Overall of GenerTTS >

  • HuBERT bottleneck과 SSL-based structure를 활용한 generalizable TTS model
  • 결과적으로 효과적인 disentanglement를 보장하여 뛰어난 합성 품질을 달성

2. Method

- Self-Supervised Acoustic Feature : HuBERT

  • HuBERT는 timbre와 다른 feature를 disentangle 하는 self-supervised representation learning model
    • 먼저 acoustic unit discovery system을 통해 iterative training target으로 pseudo-label을 생성한 다음,
      - BERT와 유사한 masking strategy를 pretraining에 적용하여 long-range temporal relationship을 학습함
    • HuBERT pretraining은 다음의 3가지 iteration을 고려함
      1. 첫 번째 iteration의 경우 MFCC에 대한 $k$-means를 training target으로 하고, trained model output은 MFCC 보다 나은 representation을 expect 함
      2. 두 번째, 세 번째 iteration의 경우 previous iteration의 middle layer에 대한 $k$-means를 current iteration의 training target으로 사용함
        - 해당 iteration을 통해 HuBERT는 pseudo-label보다 더 나은 continuous representation을 얻을 수 있음
    • 기존에는 해당 continuous embedding을 discretize 하여 사용하지만, discretization은 prosodic information loss가 발생한다는 단점이 있음
      1. 따라서 논문은 continuous embedding을 채택해 pronunciation과 style을 retaining 하면서 timbre information 만을 제거함
      2. 즉, HuBERT를 GenerTTS의 bottleneck feature로 활용하여 timbre/style, timbre/pronunciation을 disentangle 함

Overall of GenerTTS

- SSL-based TTS System

  • GenerTTS는 Phoneme to HuBERT (P2H) encoder와 HuBERT to Mel-spectrogram (H2M) decoder로 구성됨
    • 먼저 P2H encoder는 text encoder로써 input phoneme sequence에서 HuBERT embedding을 예측함
    • H2M decoder는 timbre adaptation을 수행하기 위해, HuBERT를 input으로 하여 speaker embedding condition에 따라 다양한 mel-spectrogram을 생성함
    • 최종적으로 waveform은 predicted mel-spectrogram으로부터 neural vocoder를 통해 합성됨
      - 논문에서는 MelGAN을 채택
  • P2H Encoder
    • P2H encoder는 style, pronunciation information을 제공함
    • 구조적으로는 phoneme encoder, pitch/energy predictor, length regulator (LR)이 있는 duration predictor, HuBERT decoder로 구성됨
      - 추가적으로 fine-grained style을 modeling 하기 위한 style adaptor를 적용
    • 해당 P2H는 self-attention과 lightweight convolution에 기반한 Parallel Tacotron을 기반으로 함
      1. 즉, P2H encoder에서 phoneme encoder는 phoneme sequence에서 latent representation을 학습한 다음, 해당 representation을 duration predictor에 전달하여 phoneme duration을 예측함
      2. Duration information에 따라 LR은 phoneme encoder output을 target frame sequence length로 upsampling 함
        - 이때 Parallel Tacotron과 마찬가지로 P2H encoder에는 iterative loss가 적용됨
    • 한편으로 논문은 mel-spectrogram을 directly predict 하지 않고 upsampled phoneme encoder output에서 target HuBERT embedding을 예측하는 decoder를 도입함
      1. 해당 HuBERT decoder는 fully-connected layer가 있는 3개의 lightweight convolution (LConv1) block을 가짐
      2. LConv1 block은 Gated Linear Unit (GLU), lightweight convolution (LConv), feed-forward (FF) layer, 2개의 residual connection, layer normalization으로 구성됨
    • 추가적으로 model stability를 높이고 prosody information을 explicitly modeling 하기 위해 pitch predictor와 energy predictor를 도입함
      - 이를 통해 speech waveform에서 pitch/energy를 추출하여 phoneme duration에 따라 phoneme-level feature에 mapping 함
  • H2M Decoder
    • H2M decoder는 HuBERT에서 mel-spectrogram을 예측하고 synthesis speech에 대한 timbre information을 지원함
      - 구조적으로는 fully-connected layer가 있는 3-layer LConv2 block으로 구성되고 80-dimensional mel-spectrogram을 output 함
    • High timbre adaptation을 위해 LConv2 block은 AdaSpeech와 같이 LConv1 block의 layer normalization을 conditional layer normalization으로 대체하여 speaker embedding에 따라 condition 됨
    • 추가적으로 H2M training에서는 teacher-forcing을 적용하여,
      - Training 중에는 ground-truth HuBERT embedding을 H2M decoder input으로 사용
      - Inference 시에는 predicted HuBERT를 사용
    • Iterative loss는 predicted mel-spectrogram과 ground-truth mel-spectrogram에도 적용됨
  • Cross-Lingual Style Adaptor
    • 논문의 style adaptor는 mel-spectrogram aligner (Mel aligner), style encoder, style predictor, mutual information constraint가 있는 language embedding으로 구성됨
    • 먼저 style encoder를 사용하여 phoneme-level spectrogram에서 fine-grained style embedding을 modeling 하고 이를 phoneme encoder output과 concatenate 함
      1. 이때 mel aligner는 phoneme duration information에 따라 frame-level mel-spectrogram을 phoneme-level spectrogram으로 mapping 하는 데 사용됨
      2. Pitch, energy 같은 variance feature는 style과 closely relate 되어 있으므로 pitch/energy predictor에 style embedding을 추가함
    • Cross-lingual style transfer의 경우 inference 시에 reference 된 mel-spectrogram의 language와 spoken content는 style encoder input과 inconsistent 함
      1. 따라서 논문은 style predictor를 도입하여 text-related information을 통해 style ID에 따라 fine-grained style을 예측함
      2. Training 시 style encoder output은 stop gradient 이후의 style predictor에 대한 prediction target으로 사용됨
      3. Inference 시 style encoder는 target style ID와 input phoneme sequence에 따라 style을 예측함
    • 추가적으로 cross-lingual style transfer는 synthesis speech가 target language의 native pronunciation을 유지하면서 high style similarity를 가지도록 요구함
      1. 따라서 style transfer에서 nativeness를 개선하기 위해, 논문은 language-specific information을 style embedding과 더욱 decouple 함
      2. 즉, language ID에서 language embedding을 modeling 하고 language embedding과 style embedding 간의 MI를 minimize 함
        - 이때 high-dimensional space에서 MI를 추정하는 것은 어려우므로, variational Contrastive Log-ratio Upper Bound (vCLUB)으로 측정된 MI의 upper limit를 사용

Overall Pipeline

3. Experiments

- Settings

  • Dataset : Mandarin (zh-CN), English (en-US) speech dataset
  • Comparisons : Parallel Tacotron, M3-TTS

- Results

  • 전체적으로 GenerTTS가 가장 우수한 성능을 보임

모델 성능 비교

  • HuBERT Analysis
    • HuBERT의 13 layer에 대한 $k$-means feature를 얻어 Cluster Purity와 Phone-Normalized Mutual Information (PNMI)를 비교해 보면
    • 9-th layer에서 얻어진 embedding이 가장 높은 pronunciation relationship을 보임

HuBERT Layer에 대한 $k$-Means Embedding 비교

  • 추가적으로 speaker similarity 측면에서 HuBERT embedding은 높은 similarity를 보임
    - 즉, HuBERT embedding에는 timbre-related information이 거의 존재하지 않음

Speaker Similarity

  • $F0$ 측면에서도 HuBERT embedding은 style, pronunciation 등의 factor는 유지하면서 timbre를 효과적으로 제거하는 것으로 나타남

Pitch 비교


