티스토리 뷰

반응형

CrossSpeech: Speaker-Independent Acoustic Representation for Cross-Lingual Speech Synthesis


  • Cross-lingual Text-to-Speech 성능은 여전히 intra-lingual 성능보다 떨어짐
  • CrossSpeech
    • Speaker와 language information의 disentangling을 acoustic feature space level에서 효과적으로 disentangling 하여 cross-lingual text-to-speech 성능을 향상
    • 이를 위해 Speaker-Independent Generator와 Speaker-Dependent Generator를 도입하고 각 information을 개별적으로 처리함으로써 disentangled speaker, language representation을 얻음
      - Speaker-Independent Generator는 specific speaker distribution에 bias 되지 않는 speaker-independent acoustic representation을 생성
      - Speaker-Dependent Generator는 speaker attribute를 characterize 하는 speaker-dependent variation을 모델링
  • 논문 (ICASSP 2023) : Paper Link

1. Introduction

  • Text-to-Speech (TTS)는 일반적으로 intra-lingual application에 적합하도록 설계됨
    • 즉, 다른 language를 사용하는 source speaker로부터 natural language를 생성하는 cross-lingual TTS의 품질은 여전히 intra-lingual TTS 보다 떨어짐 
    • 특히, cross-lingual TTS에서 발생하는 합성 품질 저하는 speaker-language entanglement로 인해 발생함 
      1. 실제로 training set의 한 source speaker는 하나의 source language만을 speak하므로 speaker identity는 linguistic information에 의존적임
      2. 따라서 source language representation을 target lanugage representation으로 대체하는 경우, speaker identity를 preserve 하기 어려움
    • 이러한 speaker-language entanglement 문제를 완화하고 cross-lingual TTS 성능을 향상하기 위해, 크게 2가지 방법을 고려할 수 있음
      1. Multiple language에서 share할 수 있는 language-agnostic text representation을 활용하는 방법
      2. Disentangled speaker/language information을 학습하는 방법
        - BUT, 해당 방식에서 사용된 speaker/linguistic information decomposing은 input token level로 제한적임
        - 즉, input token space에서는 각 representation이 분리되어 있지만, decoder의 input level에서 다시 결합되어 acoustic representation을 생성하므로 speaker-language entanglement가 다시 발생함

-> 그래서 decoder output frame level에서 speaker와 language information을 disentangle 하는 CrossSpeech를 제안

 

  • CrossSpeech
    • Cross-lingual TTS 성능 향상을 위해 Speaker-Independent Generator (SIG)와 Speaker-Dependent Generator (SDG)를 도입
    • SIG는 mix-dynamic speaker layer normalization, speaker generalization loss, speaker-independent pitch predictor를 기반으로 speaker-independent acoustic representation을 생성
    • SDG는 dynamic speaker layer normalization, speaker-dependent pitch predictor를 통해 speaker-dependent acoustic representation을 모델링 

< Overall of CrossSpeech >

  • Cross-lingual TTS에서 speaker와 language information의 disentangling을 위해, SIG와 SDG를 도입
  • 결과적으로 speaker similarity 측면에서 뛰어난 성능을 달성하고 cross-lingual TTS의 품질을 향상

2. Model Architecture

  • CrossSpeech는 online aligner를 채택한 FastPitch를 기반으로 설계됨
    • Online aligner는 효율적인 training을 지원하고 각 language에 대해 pre-calculated aligner의 dependency를 제거하므로 cross-lingual TTS에서 language를 extending 하는데 유용함
    • 한편으로 cross-lingual TTS에서 speaker-language entanglement를 회피하기 위해, generation pipeline을 speaker-independent module과 speaker-dependent module로 나눌 수 있음
    • 따라서 CrossSpeech는 이를 기반으로 speaker-independent representation과 speaker-dependent representation을 각각 모델링하는 SIG와 SDG를 도입함
      1. SIG는 mix-dynamic speaker layer normalization (M-DSLN), speaker-independent pitch (SIP) predictor, speaker generalization loss ($\mathcal{L}_{sgr}$)을 사용함
        - 이를 통해 특정 speaker distribution에 bias 되지 않은 speaker-independent acoustic representation $\mathbf{h}_{si}$를 생성
      2. SDG는 dynamic speaker layer normalization (DSLN)과 speaker-dependent pitch (SDP) predictor를 통해 speaker-dependent representation $\mathbf{h}_{sd}$를 모델링
    • 추가적으로 CrossSpeech는 single projection layer를 통해 예측된 mel-spectrogram에 $\mathbf{h}_{si}$를 제공함

Overall of CrossSpeech

3. Speaker-Independent Generator

  • 논문은 generalizable speaker-independent representation을 생성하기 위해 M-DSLN과 speaker generalization loss를 포함하는 SIG를 도입함
    - 추가적으로 speaker-independent prosodic variation을 학습하기 위해, 합성된 cross-lingual speech의 naturalness와 pitch accuracy를 향상하는 SIP predictor를 구성

- Speaker Generation

  • DSLN은 단순한 summation이나 concatenation을 대신, speaker embedding을 기반으로 hidden feature를 adaptively modulate 하는 방법
    • 먼저, hidden representation $\mathbf{h}$와 speaker embedding $\mathbf{e}_{s}$가 주어지면 speaker-conditioned representation은:
      (Eq. 1) $\mathrm{DSLN}(\mathbf{h},\mathbf{e}_{s})=\mathbf{W}(\mathbf{e}_{s})\otimes \mathrm{LN}(\mathbf{h})+\mathbf{b}(\mathbf{e}_{s})$
      - $\otimes$ : 1D convolution, $\mathrm{LN}$ : layer normalization
      - Filter weight $\mathbf{W}(\mathbf{e}_{s})$와 bias $\mathbf{b}(\mathbf{e}_{s})$는 $\mathbf{e}_{s}$를 input으로 하는 single linear layer에 의해 예측됨
    • 다음으로 GenerSpeech와 같이 DSLN을 mix-DSLN (M-DSLN)으로 확장함
      1. 해당 M-DSLN을 통해 text encoding이 specific speaker attribute로 bias 되는 것을 방지하고 generalization capability를 보장할 수 있음
      2. 이를 위해 fitler weight와 bias를 다음과 같이 mix 함:
        (Eq. 2) $\mathbf{W}_{mix}(\mathbf{e}_{s})=\gamma\mathbf{W}(\mathbf{e}_{s})+(1-\gamma)\mathbf{W}(\tilde{\mathbf{e}}_{s})$
        (Eq. 3) $\mathbf{b}_{mix}(\mathbf{e}_{s})=\gamma\mathbf{b}(\mathbf{e}_{s})+(1-\gamma)\mathbf{b}(\tilde{\mathbf{e}}_{s})$

        - $\tilde{\mathbf{e}}_{s}$ : batch dimension을 따라 $\mathbf{e}_{s}$를 randomly shuffling 하여 얻어짐
        - $\gamma$ : Beta distribution $\gamma\sim \mathrm{Beta}(\alpha,\alpha)$에서 sampling 됨 (논문에서는 $\alpha=2$로 설정)
      3. 해당 mixed speaker information을 기반으로 M-DSLN은:
        (Eq. 4) $\text{M-DSLN}(\mathbf{h}_{t},\mathbf{e}_{s})=\mathbf{W}_{mix}(\mathbf{e}_{s})\otimes\mathrm{LN}(\mathbf{h}_{t})+\mathbf{b}_{mix}(\mathbf{e}_{s})$
        - $\mathbf{h}_{t}$ : text encoder로 예측된 hidden text representation
    • 한편으로 generalization 성능을 더욱 향상하기 위해 Kullback-Leibler (KL) divergence에 기반한 speaker generalization loss $\mathcal{L}_{sgr}$을 도입함
      1. 해당 loss는 mixed speaker information으로 conditioning 된 text encoding과 original speaker information 간의 consistency를 보장함:
        (Eq. 5) $\mathcal{L}_{sgr}^{o2m}=\mathrm{KL}(\mathrm{DSLN}(\mathbf{h}_{t},\mathbf{e}_{s})|| \text{M-DSLN}(\mathbf{h}_{t},\mathbf{e}_{s}))$
        (Eq. 6) $\mathcal{L}_{sgr}^{m2o}=\mathrm{KL}(\text{M-DSLN}(\mathbf{h}_{t},\mathbf{e}_{s})|| \text{DSLN}(\mathbf{h}_{t},\mathbf{e}_{s}))$
      2. 결과적으로 $\mathcal{L}_{sgr} = \mathcal{L}_{sgr}^{o2m}+\mathcal{L}_{sgr}^{m2o}$
    • 이러한 M-DSLN과 speaker generalization loss를 채택함으로써, CrossSpeech는 lingustic representation에서 speaker-dependent information을 detach 할 수 있음
      - 추가적으로 다음의 SIP와 duration predictor를 사용하여 speaker-independent variation을 예측함

- Speaker-Independent Pitch Predictor

  • Cross-lingual TTS는 training 중에 unseen 한 speaker-language combination으로 인해 speech variation을 예측하기 어려움
    • 이를 해결하기 위해, CrossSpeech는 SIP predictor를 도입하여 multiple speaker에 대한 common attribute인 text-related pitch variation을 예측함
      - 즉, M-DSLN의 output을 input으로 하여 SIP predictor는 pitch value의 rise/fall을 imply 하는 binary pitch contour sequence를 예측
    • 먼저 SIP predictor를 training 하기 위해 모든 frame에 대한 ground-truth pitch value를 추출함
      1. 여기서 ground-truth pitch는 speaker-dependent value이므로, ground-truth pitch seqeunce를 speaker-dependent pitch sequence $\mathbf{p}^{(d)}$로 나타냄
      2. 다음으로 SIP predictor는 input token level에서 pitch value를 처리하므로 ground-truth duration을 사용하여 모든 input token에 대해 $\mathbf{p}^{(d)}$를 평균함
      3. 최종적으로, 평균된 $\mathbf{p}^{(d)}$를 다음의 binary sequence로 변환하여 speaker-independent target pitch sequence $\mathbf{p}^{(i)}$를 얻음:
        (Eq. 7) $p_{n}^{(i)}=\left\{\begin{matrix}
        1, & \bar{p}_{n-1}^{(d)}<\bar{p}_{n}^{(d)} \\
        0, & \text{otherwise} \\
        \end{matrix}\right.$
        - $\bar{p}_{n}^{(d)}$ : 평균된 $\mathbf{p}^{(d)}$의 $n$-th value, $p_{n}^{(i)}$ : $\mathbf{p}^{(i)}$의 $n$-th value
        - $n\in\{1,2,3,...,N\}$이고, $N$은 input token length
      4. 이때 해당 SIP predictor를 최적화하기 위해 binary cross-entropy를 사용:
        (Eq. 8) $\mathcal{L}_{sip}=-\sum_{n}^{N}[p_{n}^{(i)}\log \hat{p}_{n}^{(i)}+(1-p_{n}^{(i)})\log(1-\hat{p}_{n}^{(i)})]$
        - $\hat{p}_{n}^{(i)}$ : 예측된 speaker-independent pitch의 $n$-th value
    • Speaker-independent pitch sequence는 1D convolution layer를 통과한 다음, hidden sequence에 추가됨
      1. Resulting sum은 token duration을 기준으로 upsample 된 다음, upsampled hidden sequence를 speaker-independent acoustic representation $\mathbf{h}_{si}$로 변환하는 Feed-Forward Transformer decoder로 전달됨
      2. 이때 CrossSpeech의 duration predictor는 speaker-generalized representation을 input으로 사용하므로 general duration information을 학습할 수 있음
        - 따라서, 이를 통해 speaker identity와 independent 한 token duration을 예측하고 cross-lingual TTS에서 duration prediction을 stabilize 할 수 있음 

4. Speaker-Dependent Generator

  • Speaker-dependent attribute를 모델링하기 위해 DSLN과 SDP predictor로 구성된 SDG를 설계함 
    • 먼저 DSLN은 speaker embedding $\mathbf{e}_{s}$와 speaker-independent acoustic representation $\mathbf{h}_{si}$를 input으로 하여 speaker-adapted hidden feature를 생성함
      - 이후, 해당 speaker-adapted hidden feature를 활용하여 SDP predictor는 frame-level에서 speaker-dependent pitch embedding을 생성함
    • 이를 위해 speaker-dependent target pitch sequence $\mathbf{p}^{(d)}$를 추출하고, MSE loss를 통해 SDP predictor를 최적화함:
      (Eq. 9) $\mathcal{L}_{sdp}=||\mathbf{p}^{(d)}-\hat{\mathbf{p}}^{(d)}||_{2}$
      - $\hat{\mathbf{p}}^{(d)}$ : 예측된 speaker-dependent pitch sequence
      - 여기서 speaker-dependent pitch sequence는 1D convolution layer를 통과한 다음, hidden sequence로 sum 되고, FFT decoder는 adapted hidden sequence로부터 speaker-dependent acoustic representation $\mathbf{h}_{sd}$를 생성함
    • 결과적으로 overall training objective $\mathcal{L}_{tot}$는:
      (Eq. 10) $\mathcal{L}_{tot}=\mathcal{L}_{rec}+\mathcal{L}_{align}+\lambda_{dur}\mathcal{L}_{dur}+\lambda_{sgr}\mathcal{L}_{sgr}+\lambda_{sip}\mathcal{L}_{sip}+\lambda_{sdp}\mathcal{L}_{sdp}$

      - $\mathcal{L}_{rec}$ : target과 예측된 mel-spectrogram 간의 MSE loss
      - $\mathcal{L}_{align}$ : online aligner의 alignment loss
      - $\mathcal{L}_{dur}$ : target과 예측된 duration 간의 MSE loss
      - 논문에서는 $\lambda_{dur}=\lambda_{sgr}=\lambda_{sip}=\lambda_{sdp}=0.1$로 설정

5. Experiments

- Settings

  • Dataset : LJSpeech, English/Chinese/Korean dataset (internal)
  • Comparisons : FastPitch, SANE-TTS, Cross-Lingual TTS, Multi-Lingual TTS

Dataset 구성

- Results

  • Quality Comparison
    • CrossSpeech는 cross-lingual setting에서 가장 우수한 성능을 달성함
    • Intra-lingual 측면에서도 CrossSpeech는 큰 성능 저하 없이 기존 모델과 비슷한 수준의 합성 품질을 보임

모델 성능 비교

  • Ablation Study
    • Ablation study 측면에서 CrossSpeech의 각 component를 제거하면 성능 저하가 발생함
    • 즉, 제안된 component들은 CrossSpeech 성능 향상에 유효함

Ablation Study 결과

  • Acoustic Feature Space
    • Speaker generalization capability를 알아보기 위해, (a) pojected speaker-independent acoustic representation과 (b) final mel-spectrogram에 대한 $t$-SNE 결과를 확인해 보면
    • (a)에서 embedding은 speaker에 의해 cluster 되지 않고 random 하게 spread 되어 있음
      - 이는 speaker-independent representation이 speaker-related information에 bias 되지 않고 text-related variation만 포함하는 것을 의미함
    • (b)의 경우, embedding은 speaker에 따라 well-cluster 되는 것으로 나타남
      - 이는 CrossSpeech가 SDG를 통해 speaker-dependent attribute를 효과적으로 학습할 수 있다는 것을 의미함

Acoustic Feature Space에 대한 $t$-SNE 결과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday