티스토리 뷰
Paper/Conversion
[Paper 리뷰] VQMIVC: Quantization and Mutual Information-based Unsupervised Speech Representation Disentanglement for One-Shot Voice Conversion
feVeRin 2024. 8. 13. 09:41반응형
VQMIVC: Quantization and Mutual Information-based Unsupervised Speech Representation Disentanglement for One-Shot Voice Conversion
- One-shot voice conversion은 speech representation disentanglement를 통해 효과적으로 수행될 수 있음
- BUT, 기존 방식은 speech representation 간의 correlation을 무시하므로 content information이 leakage 될 수 있음 - VQMIVC
- Content encoding 과정에서 vector quantization을 사용하고 training 중에 correlation metric으로써 mutual information을 도입
- Unsupervised manner로 inter-dependency를 줄여 content/speaker/pitch representation을 disentangle 함
- 논문 (INTERSPEECH 2021) : Paper Link
1. Introduction
- Voice Conversion (VC)은 source speaker utterance가 target speaker와 같이 들리도록 para-linguistic factor를 modify 함
- 특히 one-shot VC는 one target speaker utterance만 주어진 상황에서 voice conversion을 수행해야 함
- 이때 para-linguistic factor에는 speaker identity, prosody, accent 등이 포함됨 - 기존에는 Speech Representation Disentanglement (SRD)를 기반으로 one-shot VC를 수행함
- 즉, speech를 speaker와 content representation으로 decompose 한 다음, source speaker representation을 target speaker로 변환하는 방식
- BUT, SRD degree를 결정하는 것이 어렵고, correlation constraint가 없기 때문에 content information이 speaker information으로 leakage 된다는 한계가 있음
- 특히 one-shot VC는 one target speaker utterance만 주어진 상황에서 voice conversion을 수행해야 함
-> 그래서 information leakage를 방지한 one-shot VC system인 VQMIVC를 제안
- VQMIVC
- Vector Quantization (VQ)과 Mutual Information (MI)를 활용하여 one-shot VC를 수행
- MI는 서로 다른 representation 간의 dependency를 반영하여 unsupervised manner로 SRD를 달성할 수 있도록 함 - 구체적으로 utterance를 content/speaker/pitch의 3가지 factor로 decompose 하고, 다음의 4가지 component로 구성된 architecture를 활용
- Content Encoder : acoustic feature에서 frame-level content representation을 추출하기 위해 Vector Quantization with Constrastive Predictive Coding (VQCPC)를 도입
- Speaker Encoder : acoustic feature로부터 single fixed-dimensional vector를 speaker representation으로 생성
- Pitch Extractor : pitch representation을 위해 utterance-level에서 normalized fundamental frequency
를 계산F0 - Decoder : content/speaker/pitch representation을 acoustic feature에 mapping 하는 역할
- Training 과정에서 VQMIVC는 VQCPC, reconstruction loss, MI loss를 최소화하는 것으로 최적화됨
- Vector Quantization (VQ)과 Mutual Information (MI)를 활용하여 one-shot VC를 수행
< Overall of VQMIVC >
- Vector quantization과 Mutual information을 활용하여 효과적인 disentanglement를 수행
- 결과적으로 기존보다 뛰어난 conversion 성능을 달성
2. Method
- VQMIVC는 content encoder, speaker encoder, pitch extractor, decoder로 구성됨
- Content encoder, speaker encoder, pitch extractor는 각각 input speech로부터 content/speaker/pitch representation을 추출함
- Decoder는 추출된 해당 representation을 acoustic feature로 mapping 함
utterance가 있다고 하면, 논문에서는 mel-spectrogram을 acoustic feature로 사용하고 각 utterance에서K frame을 randomly select 하여 training에 사용함T
- 그러면 -th mel-spectrogram은k 와 같이 얻어짐Xk={xk,l,xk,2,...,xk,T}

- Architecture of the VQMIVC System
- Content Encoder
- Content encoder
는 VQCPC를 사용하여θc 에서 linguistic content information을 추출함Xk - 구조적으로는
에 대한Xk→Zk -net,h 에 대한ˆZk→Rk -net,g 에 대한 VQ operationZk→ˆZk 로 구성됨q - 먼저
-net은h 를 사용하여 dense feature sequenceXk 를 얻음Zk={zk,1,zk,2,...,zk,T/2}
- 여기서 length는 에서T 로 reduce 됨T/2 - 이후 quantizer
는q 를 trainable codebookZk 를 통해B 로 discretize 함ˆZk={ˆzk,1,ˆzk,2,...,ˆzk,T/2}
- :ˆzk,t∈B 에 가장 가까운 vectorzk,t - 특히 VQ는
에서 non-essential detail을 제거하기 위해 information bottleneck을 적용하여,Zk 가 underlying linguistic information과 relate 되도록 함ˆZk
- 먼저
- 그러면 content encoder
는 VQ loss를 최소화하여 training 됨:θc
(Eq. 1)LVQ=2KT∑Kk=1∑T/2t=1||zk,t−sg(ˆzk,t)||22
- : stop-gradient operatorsg(⋅) - 추가적으로
가 local structure를 capture 할 수 있도록, RNN-basedˆZk -net을 활용해g 에 대한 aggregationˆZk 를 얻는 Contrastive Predictive Coding (CPC)를 도입함Rk={rk,1,rk,2,...,rk,T/2} - 즉,
가 주어지면 model은 InfoNCE loss를 최소화하여rk,t -step future의 positive samplem 을 setˆzk,t+m 에서 추출한 negative sample과 distinguish 하도록 training 됨:Ωk,t,m
(Eq. 2)LCPC=1KT′M∑Kk=1∑T′t=1∑Mm=1log[exp(ˆzTk,t+mWmrk,t)∑˜z∈Ωk,t,mexp(˜zTWmrk,t)]
- 이고,T′=T/2−M 은 trainable projection matrix (Wm )m=1,2,...,M - (Eq. 2)의 probabilistic contrastive loss로 future sample을 예측함으로써, 여러 time step에 따른 local feature가
로 encode 됨ˆZk=f(Xk;θc)
- 이를 통해 linguistic content를 accurately reconstruct 하는 데 사용되는 content representation을 얻을 수 있음
- 즉,
- Training 과정에서 negative sample set
은 current utterance에서 radomly select 하여 얻어짐Ωk,t,m
- Content encoder
- Speaker Encoder
- Speaker encoder
는θs 를 input으로 하여 speaker representation으로 사용되는 vectorXk 를 생성함sk=f(Xk;θs) 는 생성된 speech의 speaker identity를 control 하기 위해 global speech characteristic을 capture 함sk
- Speaker encoder
- Pitch Extractor
- Pitch representation은 intonation variation은 포함해야 하지만 content/speaker information은 포함하지 않아야 함
- 따라서 waveform에서 를 추출한 다음, 각 utterance에 대해 independent 하게 z-normalization을 수행F0 - 논문에서는
로써 speaker-independent 한 log-normalizedpk=(pk,1,pk,2,...,pk,T) 를 채택F0
- Pitch representation은 intonation variation은 포함해야 하지만 content/speaker information은 포함하지 않아야 함
- Decoder
- Decoder
는 content/speaker/pitch representation을 mel-spectrogram에 mapping 함θd - 이때 linear interpolation-based upsampling (
)와 repetition (×2 )이 각각×T 에 적용되어ˆZk,sk 와 align 되고, 이를 기반으로 mel-spectrogrampk 를 생성함ˆXk={ˆxk,1,ˆxk,2,...,ˆxk,T} - Decoder는 reconstruction loss를 최소화하여 content/speaker encoder와 jointly train 됨:
(Eq. 3)LREC=1KT∑Kk=1∑Tl=1[||ˆxt−xt||1+||ˆxt−xt||2]
- Decoder

- MI Minimization Integrated into VQMIVC Training
- Random variable
가 주어졌을 때, MI는 joint, marginal distribution 간의 Kullback-Leibler (KL) divergenceu,v 와 같음I(u,v)=DKL(P(u,v);P(u)P(v)) - 여기서 vCLUB을 통해 MI의 upper bound를 계산하면:
(Eq. 4)I(u,v)=EP(u,v)[logQθu,v(u|v)]−EP(u)EP(v)[logQθu,v(u|v)]
- 이고,u,v∈{ˆZ,s,p} 는 각각 content, speaker, pitch representationˆZ,s,p
- :Qθu,v(u|v) 가 주어졌을 때 networkv 로 parameterize 된θu,v 에 대한 ground-truth posterior의 variational approximationu - 그러면 서로 다른 speech representation 간 vCLUB에 대한 unbiased estimation은:
(Eq. 5)ˆI(ˆZ,s)=2K2T∑Kk=1∑Kl=1∑T/2t=1[logQθˆZ,s(ˆzk,t|sk)−logQθˆZ,s(ˆzl,t|sk)]
(Eq. 6)ˆI(p,s)=2K2T∑Kk=1∑Kl=1∑T/2t=1[logQθp,s(pk,t|sk)−logQθp,s(pl,t|sk)]
(Eq. 7)ˆI(ˆZ,p)=2K2T∑Kk=1∑Kl=1∑T/2t=1[logQθˆZ,p(ˆzk,t|ˆpk,t)−logQθˆZ,p(ˆzl,t|ˆpk,t)]
-ˆpk,t=(pk,2t−1+pk,2t)/2
- 적절한 variational approximation을 사용하면 (Eq. 4)는 reliable MI upper bound를 제공할 수 있음 - 결과적으로 (Eq. 5), (Eq. 6), (Eq. 7)을 최소화하면 서로 다른 speech representation 간의 correlation을 감소시킬 수 있고, 이때 total MI loss는:
(Eq. 8)LMI=ˆI(ˆZ,s)+ˆI(ˆZ,p)+ˆI(p,s) - Training 중에 variational approximation network와 VC network는 교대로 최적화됨
- 여기서 variational approximation network는 log-likelihood를 최대화하도록 training 됨:
(Eq. 9)Lu,v=logQθu,v(u|v),u,v∈{ˆZ,s,p} - VC network는 다음의 VC loss를 최소화함:
(Eq. 10)LVC=LVQ+LCPC+LREC+λMILMI
- : MI loss가 disentanglement를 enhance 하는데 대한 constant weightλMI
- 여기서 variational approximation network는 log-likelihood를 최대화하도록 training 됨:
- 결과적으로 VQMIVC는 아래의 [Algorithm. 1]을 통해 training 됨
- Training 과정에서 text transcription이나 speaker label이 사용되지 않으므로 fully-unsupervised manner로 동작 가능
- 여기서 vCLUB을 통해 MI의 upper bound를 계산하면:

- One-Shot VC
- Conversion 과정에서 content, pitch representation은 source speaker utterance
에서Xsrc 로 각각 추출됨ˆZsrc=f(Xsrc;θc),psrc - 이후 speaker representation은 one target speaker utterance
에서Xtgt 로 추출됨stgt=f(Xtgt;θs) - 이를 기반으로 decoder는
를 통해 converted mel-spectrogram을 생성함f(ˆZsrc,stgt,psrc;θd)
- 이후 speaker representation은 one target speaker utterance
3. Experiments
- Settings
- Results
- Speech Representation Disentanglement Performance
- (Eq. 10)의 VC loss에서
는 SRD를 위한 MI capacity를 결정함λMI
- 따라서 에 따른 vCLUB를 계산해 서로 다른 speech representation 간의 disentanglement를 비교λMI - 결과적으로
가 증가하면 MI가 감소하여 speech representation 간의 correlation이 감소됨λMI
- (Eq. 10)의 VC loss에서

- ASR system에 대해 MI가 사용되지 않은 (
) 경우, 생성된 speech는 높은λMI=0 값을 가짐ΔC,ΔW - 즉, undesired content representation으로 인해 contaminate 될 수 있음
- 한편으로 MI를 사용 (
)하면,λMI>0 를 크게 낮출 수 있음ΔC,ΔW
- 가 증가함에 따라 speaker representation으로의 content information leakage를 방지 가능λMI

- 추가적으로
를 input으로 하는 speaker classifier와ˆZ,s 를 input으로ˆZ 를 추론하는 predictor를 비교하면p 가 증가하면λMI 에 더 적은 speaker, pitch information이 포함됨ˆZ - 특히
가 클수록λMI 는 speaker information을 lose 함s

- Content Preservation and
Variation ConsistencyF0 - Pearson Correlation Coefficient (PCC) 측면에서
variation을 비교해 보면, VQMIVC가 높은 PCC를 보임F0
- Pearson Correlation Coefficient (PCC) 측면에서

- Speech Naturalness and Speaker Similarity
- MOS 측면에서도 VQMIVC가 가장 우수한 naturalness와 similarity를 달성함

반응형