티스토리 뷰
Paper/TTS
[Paper 리뷰] CrossSpeech: Speaker-Independent Acoustic Representation for Cross-Lingual Speech Synthesis
feVeRin 2024. 5. 27. 10:14반응형
CrossSpeech: Speaker-Independent Acoustic Representation for Cross-Lingual Speech Synthesis
- Cross-lingual Text-to-Speech 성능은 여전히 intra-lingual 성능보다 떨어짐
- CrossSpeech
- Speaker와 language information의 disentangling을 acoustic feature space level에서 효과적으로 disentangling 하여 cross-lingual text-to-speech 성능을 향상
- 이를 위해 Speaker-Independent Generator와 Speaker-Dependent Generator를 도입하고 각 information을 개별적으로 처리함으로써 disentangled speaker, language representation을 얻음
- Speaker-Independent Generator는 specific speaker distribution에 bias 되지 않는 speaker-independent acoustic representation을 생성
- Speaker-Dependent Generator는 speaker attribute를 characterize 하는 speaker-dependent variation을 모델링
- 논문 (ICASSP 2023) : Paper Link
1. Introduction
- Text-to-Speech (TTS)는 일반적으로 intra-lingual application에 적합하도록 설계됨
- 즉, 다른 language를 사용하는 source speaker로부터 natural language를 생성하는 cross-lingual TTS의 품질은 여전히 intra-lingual TTS 보다 떨어짐
- 특히, cross-lingual TTS에서 발생하는 합성 품질 저하는 speaker-language entanglement로 인해 발생함
- 실제로 training set의 한 source speaker는 하나의 source language만을 speak하므로 speaker identity는 linguistic information에 의존적임
- 따라서 source language representation을 target lanugage representation으로 대체하는 경우, speaker identity를 preserve 하기 어려움
- 실제로 training set의 한 source speaker는 하나의 source language만을 speak하므로 speaker identity는 linguistic information에 의존적임
- 이러한 speaker-language entanglement 문제를 완화하고 cross-lingual TTS 성능을 향상하기 위해, 크게 2가지 방법을 고려할 수 있음
- Multiple language에서 share할 수 있는 language-agnostic text representation을 활용하는 방법
- Disentangled speaker/language information을 학습하는 방법
- BUT, 해당 방식에서 사용된 speaker/linguistic information decomposing은 input token level로 제한적임
- 즉, input token space에서는 각 representation이 분리되어 있지만, decoder의 input level에서 다시 결합되어 acoustic representation을 생성하므로 speaker-language entanglement가 다시 발생함
-> 그래서 decoder output frame level에서 speaker와 language information을 disentangle 하는 CrossSpeech를 제안
- CrossSpeech
- Cross-lingual TTS 성능 향상을 위해 Speaker-Independent Generator (SIG)와 Speaker-Dependent Generator (SDG)를 도입
- SIG는 mix-dynamic speaker layer normalization, speaker generalization loss, speaker-independent pitch predictor를 기반으로 speaker-independent acoustic representation을 생성
- SDG는 dynamic speaker layer normalization, speaker-dependent pitch predictor를 통해 speaker-dependent acoustic representation을 모델링
< Overall of CrossSpeech >
- Cross-lingual TTS에서 speaker와 language information의 disentangling을 위해, SIG와 SDG를 도입
- 결과적으로 speaker similarity 측면에서 뛰어난 성능을 달성하고 cross-lingual TTS의 품질을 향상
2. Model Architecture
- CrossSpeech는 online aligner를 채택한 FastPitch를 기반으로 설계됨
- Online aligner는 효율적인 training을 지원하고 각 language에 대해 pre-calculated aligner의 dependency를 제거하므로 cross-lingual TTS에서 language를 extending 하는데 유용함
- 한편으로 cross-lingual TTS에서 speaker-language entanglement를 회피하기 위해, generation pipeline을 speaker-independent module과 speaker-dependent module로 나눌 수 있음
- 따라서 CrossSpeech는 이를 기반으로 speaker-independent representation과 speaker-dependent representation을 각각 모델링하는 SIG와 SDG를 도입함
- SIG는 mix-dynamic speaker layer normalization (M-DSLN), speaker-independent pitch (SIP) predictor, speaker generalization loss (
)을 사용함Lsgr
- 이를 통해 특정 speaker distribution에 bias 되지 않은 speaker-independent acoustic representation 를 생성hsi - SDG는 dynamic speaker layer normalization (DSLN)과 speaker-dependent pitch (SDP) predictor를 통해 speaker-dependent representation
를 모델링hsd
- SIG는 mix-dynamic speaker layer normalization (M-DSLN), speaker-independent pitch (SIP) predictor, speaker generalization loss (
- 추가적으로 CrossSpeech는 single projection layer를 통해 예측된 mel-spectrogram에
를 제공함hsi

3. Speaker-Independent Generator
- 논문은 generalizable speaker-independent representation을 생성하기 위해 M-DSLN과 speaker generalization loss를 포함하는 SIG를 도입함
- 추가적으로 speaker-independent prosodic variation을 학습하기 위해, 합성된 cross-lingual speech의 naturalness와 pitch accuracy를 향상하는 SIP predictor를 구성
- Speaker Generation
- DSLN은 단순한 summation이나 concatenation을 대신, speaker embedding을 기반으로 hidden feature를 adaptively modulate 하는 방법
- 먼저, hidden representation
와 speaker embeddingh 가 주어지면 speaker-conditioned representation은:es
(Eq. 1)DSLN(h,es)=W(es)⊗LN(h)+b(es)
- : 1D convolution,⊗ : layer normalizationLN
- Filter weight 와 biasW(es) 는b(es) 를 input으로 하는 single linear layer에 의해 예측됨es - 다음으로 GenerSpeech와 같이 DSLN을 mix-DSLN (M-DSLN)으로 확장함
- 해당 M-DSLN을 통해 text encoding이 specific speaker attribute로 bias 되는 것을 방지하고 generalization capability를 보장할 수 있음
- 이를 위해 fitler weight와 bias를 다음과 같이 mix 함:
(Eq. 2)Wmix(es)=γW(es)+(1−γ)W(˜es)
(Eq. 3)bmix(es)=γb(es)+(1−γ)b(˜es)
- : batch dimension을 따라˜es 를 randomly shuffling 하여 얻어짐es
- : Beta distributionγ 에서 sampling 됨 (논문에서는γ∼Beta(α,α) 로 설정)α=2 - 해당 mixed speaker information을 기반으로 M-DSLN은:
(Eq. 4)M-DSLN(ht,es)=Wmix(es)⊗LN(ht)+bmix(es)
- : text encoder로 예측된 hidden text representationht
- 한편으로 generalization 성능을 더욱 향상하기 위해 Kullback-Leibler (KL) divergence에 기반한 speaker generalization loss
을 도입함Lsgr - 해당 loss는 mixed speaker information으로 conditioning 된 text encoding과 original speaker information 간의 consistency를 보장함:
(Eq. 5)Lo2msgr=KL(DSLN(ht,es)||M-DSLN(ht,es))
(Eq. 6)Lm2osgr=KL(M-DSLN(ht,es)||DSLN(ht,es)) - 결과적으로
Lsgr=Lo2msgr+Lm2osgr
- 해당 loss는 mixed speaker information으로 conditioning 된 text encoding과 original speaker information 간의 consistency를 보장함:
- 이러한 M-DSLN과 speaker generalization loss를 채택함으로써, CrossSpeech는 lingustic representation에서 speaker-dependent information을 detach 할 수 있음
- 추가적으로 다음의 SIP와 duration predictor를 사용하여 speaker-independent variation을 예측함
- 먼저, hidden representation
- Speaker-Independent Pitch Predictor
- Cross-lingual TTS는 training 중에 unseen 한 speaker-language combination으로 인해 speech variation을 예측하기 어려움
- 이를 해결하기 위해, CrossSpeech는 SIP predictor를 도입하여 multiple speaker에 대한 common attribute인 text-related pitch variation을 예측함
- 즉, M-DSLN의 output을 input으로 하여 SIP predictor는 pitch value의 rise/fall을 imply 하는 binary pitch contour sequence를 예측 - 먼저 SIP predictor를 training 하기 위해 모든 frame에 대한 ground-truth pitch value를 추출함
- 여기서 ground-truth pitch는 speaker-dependent value이므로, ground-truth pitch seqeunce를 speaker-dependent pitch sequence
로 나타냄p(d) - 다음으로 SIP predictor는 input token level에서 pitch value를 처리하므로 ground-truth duration을 사용하여 모든 input token에 대해
를 평균함p(d) - 최종적으로, 평균된
를 다음의 binary sequence로 변환하여 speaker-independent target pitch sequencep(d) 를 얻음:p(i)
(Eq. 7)p(i)n={1,ˉp(d)n−1<ˉp(d)n0,otherwise
- : 평균된ˉp(d)n 의p(d) -th value,n :p(i)n 의p(i) -th valuen
- 이고,n∈{1,2,3,...,N} 은 input token lengthN - 이때 해당 SIP predictor를 최적화하기 위해 binary cross-entropy를 사용:
(Eq. 8)Lsip=−∑Nn[p(i)nlogˆp(i)n+(1−p(i)n)log(1−ˆp(i)n)]
- : 예측된 speaker-independent pitch의ˆp(i)n -th valuen
- 여기서 ground-truth pitch는 speaker-dependent value이므로, ground-truth pitch seqeunce를 speaker-dependent pitch sequence
- Speaker-independent pitch sequence는 1D convolution layer를 통과한 다음, hidden sequence에 추가됨
- Resulting sum은 token duration을 기준으로 upsample 된 다음, upsampled hidden sequence를 speaker-independent acoustic representation
로 변환하는 Feed-Forward Transformer decoder로 전달됨hsi - 이때 CrossSpeech의 duration predictor는 speaker-generalized representation을 input으로 사용하므로 general duration information을 학습할 수 있음
- 따라서, 이를 통해 speaker identity와 independent 한 token duration을 예측하고 cross-lingual TTS에서 duration prediction을 stabilize 할 수 있음
- Resulting sum은 token duration을 기준으로 upsample 된 다음, upsampled hidden sequence를 speaker-independent acoustic representation
- 이를 해결하기 위해, CrossSpeech는 SIP predictor를 도입하여 multiple speaker에 대한 common attribute인 text-related pitch variation을 예측함
4. Speaker-Dependent Generator
- Speaker-dependent attribute를 모델링하기 위해 DSLN과 SDP predictor로 구성된 SDG를 설계함
- 먼저 DSLN은 speaker embedding
와 speaker-independent acoustic representationes 를 input으로 하여 speaker-adapted hidden feature를 생성함hsi
- 이후, 해당 speaker-adapted hidden feature를 활용하여 SDP predictor는 frame-level에서 speaker-dependent pitch embedding을 생성함 - 이를 위해 speaker-dependent target pitch sequence
를 추출하고, MSE loss를 통해 SDP predictor를 최적화함:p(d)
(Eq. 9)Lsdp=||p(d)−ˆp(d)||2
- : 예측된 speaker-dependent pitch sequenceˆp(d)
- 여기서 speaker-dependent pitch sequence는 1D convolution layer를 통과한 다음, hidden sequence로 sum 되고, FFT decoder는 adapted hidden sequence로부터 speaker-dependent acoustic representation 를 생성함hsd - 결과적으로 overall training objective
는:Ltot
(Eq. 10)Ltot=Lrec+Lalign+λdurLdur+λsgrLsgr+λsipLsip+λsdpLsdp
- : target과 예측된 mel-spectrogram 간의 MSE lossLrec
- : online aligner의 alignment lossLalign
- : target과 예측된 duration 간의 MSE lossLdur
- 논문에서는 로 설정λdur=λsgr=λsip=λsdp=0.1
- 먼저 DSLN은 speaker embedding
5. Experiments
- Settings
- Dataset : LJSpeech, English/Chinese/Korean dataset (internal)
- Comparisons : FastPitch, SANE-TTS, Cross-Lingual TTS, Multi-Lingual TTS

- Results
- Quality Comparison
- CrossSpeech는 cross-lingual setting에서 가장 우수한 성능을 달성함
- Intra-lingual 측면에서도 CrossSpeech는 큰 성능 저하 없이 기존 모델과 비슷한 수준의 합성 품질을 보임
- CrossSpeech는 cross-lingual setting에서 가장 우수한 성능을 달성함

- Ablation Study
- Ablation study 측면에서 CrossSpeech의 각 component를 제거하면 성능 저하가 발생함
- 즉, 제안된 component들은 CrossSpeech 성능 향상에 유효함

- Acoustic Feature Space
- Speaker generalization capability를 알아보기 위해, (a) pojected speaker-independent acoustic representation과 (b) final mel-spectrogram에 대한
-SNE 결과를 확인해 보면t - (a)에서 embedding은 speaker에 의해 cluster 되지 않고 random 하게 spread 되어 있음
- 이는 speaker-independent representation이 speaker-related information에 bias 되지 않고 text-related variation만 포함하는 것을 의미함 - (b)의 경우, embedding은 speaker에 따라 well-cluster 되는 것으로 나타남
- 이는 CrossSpeech가 SDG를 통해 speaker-dependent attribute를 효과적으로 학습할 수 있다는 것을 의미함
- Speaker generalization capability를 알아보기 위해, (a) pojected speaker-independent acoustic representation과 (b) final mel-spectrogram에 대한

반응형