티스토리 뷰
Paper/TTS
[Paper 리뷰] FastPitchFormant: Source-Filter based Decomposed Modeling for Speech Synthesis
feVeRin 2024. 12. 21. 09:55반응형
FastPitchFormant: Source-Filter based Decomposed Modeling for Speech Synthesis
- Text-to-Speech에서 large pitch-shift scale은 품질 저하와 speaker characteristic deformation을 일으킴
- FastPitchFormant
- Source-Filter theory를 기반으로 설계된 Feed-Forward Transformer model
- Text, acoustic feature를 개별적으로 modeling 하여 model이 두 feature 간의 relationship을 학습하는 것을 방지
- 논문 (INTERSPEECH 2021) : Paper Link
1. Introduction
- Text-to-Speech (TTS)는 주어진 sentence에 해당하는 natural voice를 합성하는 것을 목표로 함
- 특히 Feed-Forward Transformer (FFT) block은 mel-spectrogram의 synthetic quality를 향상하는데 중요한 역할을 함
- 대표적으로 FastSpeech, FastSpeech2와 같은 non-autoregressive FFT-based TTS model은 duration/pitch/energy와 같은 acoustic feature를 acoustic decoder에 적용하여 합성 품질을 개선함 - 한편으로 FastPitch의 경우 pitch value의 character-level을 변경하여 fine-grained prosody control이 가능함
- 특히 speaker characteristic을 preserve하면서 manipulated pitch로 음성을 생성하는 pitch shift를 지원할 수 있음
- BUT, FastPitch의 acoustic decoder는 text와 pitch information을 함께 처리하고 pitch-conditioned text information으로부터 음성을 생성함
- 따라서 decoder는 text, pitch 간의 relationship을 학습하게 됨 - 결과적으로 FastPitch는 average pitch에서 벗어나는 경우, pitch expressiveness와 speaker similarity가 떨어짐
- 이때 text/prosodic information을 개별적으로 처리하기 위해 다음의 방법을 고려할 수 있음:
- Unsupervised manner로 training된 additional neural network를 활용하여 acoustic feature의 latent variable을 추출하는 방법
- BUT, desired prosodic information이 latent variable에 포함되지 않을 수 있음 - Source-Filter theory를 활용하는 방법
- Vocal tract filter에 의해 formulate된 sound source와 formant frequency는 각각 fundamental frequency와 phonation에 영향을 미침
- BUT, 음성은 character 당 duration이 짧고 pitch 변화도 빈번하므로 modeling이 까다로움
- Unsupervised manner로 training된 additional neural network를 활용하여 acoustic feature의 latent variable을 추출하는 방법
- 특히 Feed-Forward Transformer (FFT) block은 mel-spectrogram의 synthetic quality를 향상하는데 중요한 역할을 함
-> 그래서 source-filter theory를 neural TTS에 접목한 FastPitchFormant를 제안
- FastPitchFormant
- Decomposed structure를 통해 개별적으로 modeling된 formant-/excitation-related representation을 사용하여 mel-spectrogram을 생성
- Source-Filter theory와 non-autoregressive FFT model에 적합한 learning objective를 설계
< Overall of FastPitchFormant >
- Source-Filter theory를 기반으로 한 non-autoregressive FFT-based TTS model
- 결과적으로 기존보다 뛰어난 합성 품질과 pitch controllability를 달성
2. Method
- FastPitchFormant는 text encoder, temporal predictor, formant/excitation generator, spectrogram generator로 구성됨
- 여기서 temporal predictor를 제외한 나머지는 모두 Feed-Forward Transformer (FFT) block stack으로 구성됨
- Temporal predictor는 2개의 1D convolutional layer로 구성되어 ground-truth duration/pitch를 예측함
- Multi-speaker TTS의 경우 speaker embedding lookup table을 통해 speaker embedding을 얻음
- 여기서 temporal predictor를 제외한 나머지는 모두 Feed-Forward Transformer (FFT) block stack으로 구성됨

- Text Encoder and Temporal Predictor
- Phoneme embedding vector는 phoneme sequence와 positional embedding이 있는 lookup embedding table로 represent 됨
- 이후 phoneme embedding vector는 text encoder로 전달되어 hidden embedding을 예측함
- 여기서 hidden embedding은 duration/pitch에 대한 2가지 temporal predictor에 대한 input으로 사용됨 - Pitch embedding은 predicted pitch value를 1D convolutional layer에 통과시켜 얻어지고,
- Hidden embedding과 pitch embedding은 각각 speaker embedding과 결합됨
- 이후 두 representation을 discretely upsample 하여 predicted duration과 align 함
- Upsampled phoneme representation을
, upsampled pitch representation을h∈RD×T 라고 할 때, 각p∈RD×T 는 formant/excitation generator로 전달됨h,p
- : vector dimension,D : total frame 수T
- 이후 phoneme embedding vector는 text encoder로 전달되어 hidden embedding을 예측함
- Formant and Excitation Generator
- 논문은 source-filter theory를 기반으로 formant/excitation generator를 도입함
- 먼저 formant generator는
만을 사용하여 linguistic information과 같은 formant-related information을 포함한 formant representation을 예측함h - Excitation generator는
를 모두 사용하여 prosody와 같은 excitation-related information을 포함하는 excitation representation을 예측함h,p - 특히 excitation representation이
만을 사용하는 경우 pitch control accuracy가 저하됨p
- 따라서 pitch control accuracy를 개선하기 위해 self-attention mechanism을 도입함 - 결과적으로 excitation generator의 first self-attention layer에서 attention matrix와 query
는:Q
(Eq. 1)Attention(Q,K,V)=softmax(QKT√d)V
(Eq. 2)Q=WQ(h+p)+bQ
- : self-attention mechanism의 key, valueK,V
- : query에 대한 weight matrix, biasWQ,bQ
- 특히 excitation representation이
- 먼저 formant generator는
- Spectrogram Decoder
- Spectrogram decoder는 2개의 stacked FFT block과 3개의 Fully-Connected (FC) layer로 구성됨
- 여기서 각 FC layer는 target mel-spectrogram을 생성함
- First spectrogram은 first FC layer를 통해 project 된 formant와 excitation representation의 summation으로 얻어짐
- 이후 second/third mel-spectrogram을 생성하기 위해 formant, excitation representation의 summation이 stacked FFT block으로 전달되고, second/third FC layer에 의해 mel-spectrogram으로 project 됨
- 일반적으로 Source-Filter theory에서 source spectrum은 vocal tract filter로 multiply 되지만, FastPitchFormant는 log-scale mel-spectrogram을 사용하므로 multiplication을 summation으로 대체하여 사용함
- 결과적으로 각 FC layer output은
loss를 iterative loss로 포함하는 learning objective에 사용됨L2
- 해당 iterative loss로 인해 spectrogram decoder는 formant와 excitation representation의 summation에서 final mel-spectrogram을 생성하도록 training 됨 - 추론 시에는 third FC layer의 mel-spectrogram을 FastPitchFormant의 final output으로 사용함
- 여기서 각 FC layer는 target mel-spectrogram을 생성함
- Learning Objective
- FastPitchFormant의 learning objective는:
(Eq. 3)Lfinal=1TM∑3i=1Lspeci+αLp+βLd
- : mel-spectrogram bin 수M
- : target,Lspeci -th FC layer의i -th predicted mel-spectrogram 간의i lossL2
- : 각각 target, predicted pitch/duration 간의Lp,Ld lossL2
3. Experiments
- Settings
- Dataset : Korean Speaker Dataset
- Comparisons : FastPitch
- Results
- Objective Evaluation
- 먼저
semitone shifted pitch valueλ 는 다음과 같이 계산할 수 있음:fλ
(Eq. 4)fλ=2λ12×f0
- : original pitch valuef0
-λ∈{−8,−6,−4,0,4,6,8} - Pitch control accuracy 측면에서 FastPitchFormant (FPF)는 FastPitch (FP) 보다 wider range의 pitch control이 가능함
- 먼저

- Excitation, formant representation에 대한 mel-spectrogram을 비교해 보면, FPF의 formant, excitation generator는 vocal cord, vocal tract의 action을 modeling하는 것으로 나타남

- Mel-Cepstral Distortion (MCD) 측면에서도 FPF는 FP 보다 우수한 성능을 보임

에 대한 spectral envelope를 비교해보면, FPF는 original shape를 유지하지만 FP는λ 에 따라 distort 되는 것으로 나타남λ

- Subjective Evaluation
- MOS 측면에서도 FPF는 우수한 합성 품질을 보임

- Pitch-shifted speech에 대해서도 FP 보다 높은 MOS를 달성함

- Speaker Preservation
- Pitch-shifted scale가 작은 경우 (
)에는 speaker similarity의 차이가 크지 않음|λ|≤4 인 경우에는 FPF가 FP 보다 speaker characteristic을 효과적으로 preserve 함|λ|≥4
- Pitch-shifted scale가 작은 경우 (

반응형