티스토리 뷰

반응형

FastPitchFormant: Source-Filter based Decomposed Modeling for Speech Synthesis


  • Text-to-Speech에서 large pitch-shift scale은 품질 저하와 speaker characteristic deformation을 일으킴
  • FastPitchFormant
    • Source-Filter theory를 기반으로 설계된 Feed-Forward Transformer model
    • Text, acoustic feature를 개별적으로 modeling 하여 model이 두 feature 간의 relationship을 학습하는 것을 방지
  • 논문 (INTERSPEECH 2021) : Paper Link

1. Introduction

  • Text-to-Speech (TTS)는 주어진 sentence에 해당하는 natural voice를 합성하는 것을 목표로 함
    • 특히 Feed-Forward Transformer (FFT) block은 mel-spectrogram의 synthetic quality를 향상하는데 중요한 역할을 함
      - 대표적으로 FastSpeech, FastSpeech2와 같은 non-autoregressive FFT-based TTS model은 duration/pitch/energy와 같은 acoustic feature를 acoustic decoder에 적용하여 합성 품질을 개선함
    • 한편으로 FastPitch의 경우 pitch value의 character-level을 변경하여 fine-grained prosody control이 가능함
      1. 특히 speaker characteristic을 preserve하면서 manipulated pitch로 음성을 생성하는 pitch shift를 지원할 수 있음
      2. BUT, FastPitch의 acoustic decoder는 text와 pitch information을 함께 처리하고 pitch-conditioned text information으로부터 음성을 생성함
        - 따라서 decoder는 text, pitch 간의 relationship을 학습하게 됨
      3. 결과적으로 FastPitch는 average pitch에서 벗어나는 경우, pitch expressiveness와 speaker similarity가 떨어짐 
    • 이때 text/prosodic information을 개별적으로 처리하기 위해 다음의 방법을 고려할 수 있음:
      1. Unsupervised manner로 training된 additional neural network를 활용하여 acoustic feature의 latent variable을 추출하는 방법
        - BUT, desired prosodic information이 latent variable에 포함되지 않을 수 있음
      2. Source-Filter theory를 활용하는 방법
        - Vocal tract filter에 의해 formulate된 sound source와 formant frequency는 각각 fundamental frequency와 phonation에 영향을 미침
        - BUT, 음성은 character 당 duration이 짧고 pitch 변화도 빈번하므로 modeling이 까다로움

-> 그래서 source-filter theory를 neural TTS에 접목한 FastPitchFormant를 제안

 

  • FastPitchFormant
    • Decomposed structure를 통해 개별적으로 modeling된 formant-/excitation-related representation을 사용하여 mel-spectrogram을 생성
    • Source-Filter theory와 non-autoregressive FFT model에 적합한 learning objective를 설계

< Overall of FastPitchFormant >

  • Source-Filter theory를 기반으로 한 non-autoregressive FFT-based TTS model
  • 결과적으로 기존보다 뛰어난 합성 품질과 pitch controllability를 달성

2. Method

  • FastPitchFormant는 text encoder, temporal predictor, formant/excitation generator, spectrogram generator로 구성됨
    • 여기서 temporal predictor를 제외한 나머지는 모두 Feed-Forward Transformer (FFT) block stack으로 구성됨
    • Temporal predictor는 2개의 1D convolutional layer로 구성되어 ground-truth duration/pitch를 예측함
    • Multi-speaker TTS의 경우 speaker embedding lookup table을 통해 speaker embedding을 얻음

Overall of FastPitchFormant

- Text Encoder and Temporal Predictor

  • Phoneme embedding vector는 phoneme sequence와 positional embedding이 있는 lookup embedding table로 represent 됨
    • 이후 phoneme embedding vector는 text encoder로 전달되어 hidden embedding을 예측함
      - 여기서 hidden embedding은 duration/pitch에 대한 2가지 temporal predictor에 대한 input으로 사용됨
    • Pitch embedding은 predicted pitch value를 1D convolutional layer에 통과시켜 얻어지고,
      1. Hidden embedding과 pitch embedding은 각각 speaker embedding과 결합됨
      2. 이후 두 representation을 discretely upsample 하여 predicted duration과 align 함
    • Upsampled phoneme representation을 $h\in \mathbb{R}^{D\times T}$, upsampled pitch representation을 $p\in\mathbb{R}^{D\times T}$라고 할 때, 각 $h,p$는 formant/excitation generator로 전달됨
      - $D$ : vector dimension, $T$ : total frame 수

- Formant and Excitation Generator

  • 논문은 source-filter theory를 기반으로 formant/excitation generator를 도입함
    • 먼저 formant generator는 $h$만을 사용하여 linguistic information과 같은 formant-related information을 포함한 formant representation을 예측함
    • Excitation generator는 $h, p$를 모두 사용하여 prosody와 같은 excitation-related information을 포함하는 excitation representation을 예측함
      1. 특히 excitation representation이 $p$만을 사용하는 경우 pitch control accuracy가 저하됨
        - 따라서 pitch control accuracy를 개선하기 위해 self-attention mechanism을 도입함
      2. 결과적으로 excitation generator의 first self-attention layer에서 attention matrix와 query $Q$는:
        (Eq. 1) $\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^{T}}{\sqrt{d}}\right)V$
        (Eq. 2) $Q=W_{Q}(h+p)+b_{Q}$
        - $K,V$ : self-attention mechanism의 key, value
        - $W_{Q}, b_{Q}$ : query에 대한 weight matrix, bias

- Spectrogram Decoder

  • Spectrogram decoder는 2개의 stacked FFT block과 3개의 Fully-Connected (FC) layer로 구성됨
    • 여기서 각 FC layer는 target mel-spectrogram을 생성함
      1. First spectrogram은 first FC layer를 통해 project 된 formant와 excitation representation의 summation으로 얻어짐
      2. 이후 second/third mel-spectrogram을 생성하기 위해 formant, excitation representation의 summation이 stacked FFT block으로 전달되고, second/third FC layer에 의해 mel-spectrogram으로 project 됨
    • 일반적으로 Source-Filter theory에서 source spectrum은 vocal tract filter로 multiply 되지만, FastPitchFormant는 log-scale mel-spectrogram을 사용하므로 multiplication을 summation으로 대체하여 사용함
    • 결과적으로 각 FC layer output은 $L_{2}$ loss를 iterative loss로 포함하는 learning objective에 사용됨
      - 해당 iterative loss로 인해 spectrogram decoder는 formant와 excitation representation의 summation에서 final mel-spectrogram을 생성하도록 training 됨
    • 추론 시에는 third FC layer의 mel-spectrogram을 FastPitchFormant의 final output으로 사용함

- Learning Objective

  • FastPitchFormant의 learning objective는:
    (Eq. 3) $\mathcal{L}_{final}=\frac{1}{TM}\sum_{i=1}^{3}\mathcal{L}_{spec_{i}}+ \alpha\mathcal{L}_{p}+\beta\mathcal{L}_{d}$
    - $M$ : mel-spectrogram bin 수
    - $\mathcal{L}_{spec_{i}}$ : target, $i$-th FC layer의 $i$-th predicted mel-spectrogram 간의 $L_{2}$ loss
    - $\mathcal{L}_{p}, \mathcal{L}_{d}$ : 각각 target, predicted pitch/duration 간의 $L_{2}$ loss

3. Experiments

- Settings

  • Dataset : Korean Speaker Dataset
  • Comparisons : FastPitch

- Results

  • Objective Evaluation
    • 먼저 $\lambda$ semitone shifted pitch value $f_{\lambda}$는 다음과 같이 계산할 수 있음:
      (Eq. 4) $f_{\lambda}=2^{\frac{\lambda}{12}}\times f_{0}$
      - $f_{0}$ : original pitch value
      - $\lambda \in\{-8, -6, -4, 0, 4, 6, 8\}$
    • Pitch control accuracy 측면에서 FastPitchFormant (FPF)는 FastPitch (FP) 보다 wider range의 pitch control이 가능함

$F_{0}$ Frame Error (FFE) 비교

  • Excitation, formant representation에 대한 mel-spectrogram을 비교해 보면, FPF의 formant, excitation generator는 vocal cord, vocal tract의 action을 modeling하는 것으로 나타남

(a) Excitation Representation (b) Formant Representation (c) Final Output

  • Mel-Cepstral Distortion (MCD) 측면에서도 FPF는 FP 보다 우수한 성능을 보임

MCD 비교

  • $\lambda$에 대한 spectral envelope를 비교해보면, FPF는 original shape를 유지하지만 FP는 $\lambda$에 따라 distort 되는 것으로 나타남

Spectral Envelope (a) FP (b) FPF

  • Subjective Evaluation
    • MOS 측면에서도 FPF는 우수한 합성 품질을 보임

MOS 비교

  • Pitch-shifted speech에 대해서도 FP 보다 높은 MOS를 달성함

Pitch-shifted Speech에 대한 MOS 비교

  • Speaker Preservation
    • Pitch-shifted scale가 작은 경우 ($|\lambda |\leq 4$)에는 speaker similarity의 차이가 크지 않음
    • $| \lambda | \geq 4$인 경우에는 FPF가 FP 보다 speaker characteristic을 효과적으로 preserve 함

Speaker Similarity 비교

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Total
Today
Yesterday