[Paper 리뷰] QI-TTS: Question Intonation Control for Emotional Speech Synthesis

티스토리 뷰

Paper/TTS

[Paper 리뷰] QI-TTS: Question Intonation Control for Emotional Speech Synthesis

feVeRin 2024. 7. 30. 09:24

QI-TTS: Question Intonation Control for Emotional Speech Synthesis

Expressive text-to-speech는 intonation과 같은 fine-grained style이 무시되는 경우가 많음
QI-TTS
- Reference speech의 emotion을 transfer 하면서 questioning intonation을 효과적으로 deliver 하기 위해 2가지의 서로 다른 level에서 style embedding을 추출하는 multi-style extractor를 활용
- Fine-grained intonation control을 위해 relative attribute를 통해 syllable level에서 intonation intensity를 represent 함
논문 (ICASSP 2023) : Paper Link

1. Introduction

Emotional speech synthesis를 위해 주로 reference audio를 활용하여 desired speech style을 반영하는 style-transfer text-to-speech (TTS)를 구성함
- 이를 위해 대표적으로 Global Style Token (GST), Variational AutoEncoder (VAE) 등을 활용할 수 있음
- BUT, learned setence-level style embedding을 emotion transfer에 활용하는 것만으로는 speaker attitude를 충분히 반영하지 못함
  - Emotion embedding은 'angry statement', 'angry question' 같이 emotion과 intonation 간의 mutually exclusive combination을 동시에 모델링하지 못하기 때문
- 특히 speaker는 questioning intonation을 사용하여 delcarative question 형식으로 statement를 제시할 수 있음
  - 따라서 single aspect에서 speech prosody를 모델링하는 것은 부적절하고, intention clarification을 위해 intonation을 반영할 수 있어야 함
- 결과적으로 expressive TTS는 다음에 대한 개선점을 가짐
  1. Normal statement 외에도 questioning과 같은 multiple, differential prosody를 모델링할 수 있어야 함
  2. Intonation expression은 상당히 다양하므로 specific intensity로 intonation을 flexibly deliver 할 수 있어야 함
  3. Expressiveness를 향상하기 위해 prosody와 다른 attribute를 disentangle 할 수 있어야 함

-> 그래서 앞선 expressive TTS의 한계를 개선한 QI-TTS를 제안

QI-TTS
- FastSpeech2를 기반으로 sentence-level과 final syllable-level에서 emotion, intonation을 추출하는 multi-style extractor를 도입
- Relative attribute를 활용한 ranking function을 통해 각 audio sample에 intonation strength를 할당
- 추가적으로 content embedding과 style embedding 간의 information overlap을 최소화하기 위해 content predictor와 gradient reversal layer (GRL)을 적용

< Overall of QI-TTS >

Reference audio의 emotion, intonation을 end-to-end manner로 deliver 하고, explicit label 없이 intonation intensity를 효과적으로 control 함
결과적으로 기존 방식보다 뛰어난 성능을 달성

2. Method

QI-TTS는 FastSpeech2를 기반으로 ranking function이 포함된 multi-style extractor, Gradient Reversal Layer (GRL)이 포함된 content predictor로 구성됨
- Extractor는 sentence와 final syllable level에서 embedding 된 emotion과 intonation을 추출
- Ranking function은 relative intonation intensity를 output 하고 intonation intensity embedding으로 encode 함
  - 이후 emotion, intonation embedding과 concatenate 하여 multi-style embedding을 구성
- GRL content predictor는 multi-style embedding에서 content information을 disentangle 함

- Multi-Style Extractor

Sentence-final의 duration, fundamental frequency는 utterance의 다른 position과 다름
- 실제로 english에서 final syllable duration은 non-final syllable보다 1.53배 길고, endpoint $F0$의 absolute value는 question/statement를 distinguish 하는데 효과적임
  - 따라서 논문은 duration variance와 intonation-related feature를 capture 하기 위해 final syllable을 포함하는 audio의 last 0.52초를 intonation으로 모델링함
- 추가적으로 reference speech에서 emotion, intonation information을 추출하기 위해 multi-style extractor를 도입함
  1. 해당 module은 reference encoder와 style token layer를 가지고, sentence의 mel-spectrogram과 final syllable의 mel-spectrogram이 모두 reference encoder에 전달됨
    - $R_{s}, R_{f}$ : 각각 output sentence reference embedding, final syllable reference embedding
  2. 이때 emotion, intonation 간의 relationship은 hierarchical 하지 않으므로 final syllable reference embedding의 효과는 sentence reference embedding과 overlap 될 수 있음
    - 따라서 해당 overlap을 회피하기 위해 $R_{f}-R_{s}$를 사용하여 final syllable level의 residual embedding을 represent 함
  3. Emotion style embedding $G_{s}$와 intonation style embedding $G_{f}$는 $R_{f}$와 $R_{f}-R_{s}$를 해당 style token layer에 전달하여 얻어짐
  4. 이후 해당 embedding을 intonation intensity를 나타내는 ranking embedding과 concatenate 하여 multi-style embedding을 구성함

- Modelling Intonation Intensity

논문에서는 intensity label 없이 questioning intonation을 fine-grained control 하는 것을 목표로 함
- 해당 unsupervised intensity modeling을 위해 ranking-based method인 relative attribute를 활용함
  1. 여기서 questioning intensity를 learned relative attribute로 depict 할 수 있는 speech attribute로 취급
  2. Questioning intensity는 quenstioning intonation variation이 없는 경우 0이므로 questioning intensity를 statement와 question 간의 relative difference로 고려
- Training set $T=X_{t}$가 있고, $X_{t}$는 $t$-th training sample의 acoustic feature라고 하자
  1. $A,B$를 각각 question, statement set이라고 했을 때, QI-TTS는 다음의 ranking function을 학습해야 함:
    (Eq. 1) $f(X_{t})=WX_{t}$
    - $W$ : weighting matrix
  2. Question의 intonation intensity는 statement보다 항상 높아야 하므로 다음의 constraint를 충족해야 함:
    (Eq. 2) $\forall (X_{a}\in A\, \text{and}\, X_{b}\in B):WX_{a}>WX_{b}$
    $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\forall (X_{a},X_{b})\in A \,\text{or}\,(X_{a},X_{b})\in B:WX_{a}=WX_{b}$
  3. 그러면 weighting matrix $W$를 추정하기 위해 다음을 solve 함:
    (Eq. 3) $\min_{W}\left(\frac{1}{2}||W||_{2}^{2}+C \left(\sum\xi_{a,b}^{2}+\sum\gamma_{a,b}^{2} \right)\right)$
    $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\text{s.t.}\,\, W(X_{a}-X_{b})\geq 1-\xi_{a,b};\,\,\, \forall(X_{a}\in A \,\text{and}\,X_{b}\in B),$
    $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,|W(X_{a}-X_{b})|\leq \gamma_{a,b};\,\,\forall (X_{a},X_{b})\in A\,\text{or}\,(X_{a},X_{b})\in B,$
    $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\xi_{a,b}\geq 0;\gamma_{a,b}\geq 0$
    - $C$ : slack variable $\xi_{a,b}^{2}$와 $\gamma_{a,b}^{2}$의 margin과 size 간의 trade-off
- Relative ranking function $f(x)$가 training 되면, $[0,1]$ range의 normalized relative attribute가 speech sample에 대해 계산될 수 있음
  - 이후 해당 attribute는 FC layer로 전달되어 intensity embedding $h_{i}$를 생성함
- 추론 시에는 reference speech나 manual instruction을 사용하여 fine-grained intonation control이 가능
  - Reference audio를 analyze 하여 intensity를 예측하고 $[0,1]$ interval 내의 value를 수동 할당하는 방식

- Prediction Tasks

Multi-style extractor는 reference audio에서 multi-level style을 unsupervisedly learning 함
- 이때 논문은 emotion, intonation prediction task를 추가하여 각 level module이 해당 style을 효과적으로 학습하도록 함
- Emotion predictor는 cross-entropy (CE) loss를 사용하고, intonation loss function은 sparse question label로 인해 weighted cross-entropy를 사용:
  (Eq. 4) $L=-\hat{y}_{1}\log y_{1}-\sigma \hat{y}_{2}\log y_{2}$
  - $[\hat{y}_{1},\hat{y}_{2}]$ : statement, question category의 probability
  - $[y_{1},y_{2}]$ : ground-truth label의 one-hot encoding
  - $\sigma$ : balance parameter
- Adversarial content predictor network는 Mask-And-Predict (MAP)를 활용하여 multi-style embedding에서 overlapped content information을 disentangle 하도록 설계됨
  1. Network는 gradient reverse layer와 content predictor로 구성
  2. Predictor는 $L_{content}=||\hat{c}-c||_{1}$의 loss를 최소화하여 content representation을 예측하도록 training 됨
    - $c, \hat{c}$ : 각각 phoneme encoder에 의해 생성된 content embedding, adversarial content predictor output
  3. Multi-style embedding에 포함된 content information을 최소화하기 위해 gradient가 reverse 된 다음, multi-style extractor로 backpropagate 됨

3. Experiments

- Settings

Dataset : ESD
Comparisons : Multi-Emotional FastSpeech2, Styler

- Results

전체적으로 QI-TTS가 가장 우수한 성능을 달성함

Mel-spectrogram 측면에서도 ground-truth와 비슷한 합성 결과를 보임

Ablation study 측면에서 각 component를 제거하는 경우 성능 저하가 발생함

Intonation intensity control 성능을 확인하기 위해 Best-Worst Scaling (BWS) test를 수행해 보면, QI-TTS는 emotion을 효과적으로 반영할 수 있음

'Paper > TTS' 카테고리의 다른 글

[Paper 리뷰] Fast DCTTS: Efficient Deep Convolutional Text-to-Speech (0)	2024.09.15
[Paper 리뷰] EmoQ-TTS: Emotion Intensity Quantization for Fine-Grained Controllable Emotional Text-to-Speech (4)	2024.07.31
[Paper 리뷰] AILTTS: Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech (0)	2024.07.29
[Paper 리뷰] Multi-SpectroGAN: High-Diversity and High-Fidelity Spectrogram Generation with Adversarial Style Combination for Speech Synthesis (0)	2024.07.28
[Paper 리뷰] CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training (0)	2024.07.27

최근에 올라온 글

최근에 달린 댓글

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리 뷰

[Paper 리뷰] QI-TTS: Question Intonation Control for Emotional Speech Synthesis

QI-TTS: Question Intonation Control for Emotional Speech Synthesis

1. Introduction

2. Method

- Multi-Style Extractor

- Modelling Intonation Intensity

- Prediction Tasks

3. Experiments

- Settings

- Results

'Paper > TTS' 카테고리의 다른 글

티스토리툴바