티스토리 뷰

반응형

ZSVC: Zero-Shot Style Voice Conversion with Disentangled Latent Diffusion Models and Adversarial Training


  • Style voice conversion은 original speaker identity를 유지하면서 source speech의 speaking style을 desired style로 변환하는 것을 목표로 함
  • ZSVC
    • Speech codec과 speech prompting mechanism을 포함한 latent diffusion model을 활용
    • Speaking style, timbre를 disentangle 하기 위해 information bottleneck을 도입하고 Uncetainty Modeling Adaptive Instance Normalization을 통해 style prompt에서 speaker timbre를 perturb 함
  • 논문 (ICASSP 2025) : Paper Link

1. Introduction

  • Zero-shot Voice Conversion (VC)는 linguistic content를 변경하지 않으면서 source speaker를 target speaker로 변환하는 것을 목표로 함
    • 기존에는 AutoVC와 같이 source speaker의 linguistic content와 target speaker timbre를 merge 하여 converted speech를 생성함
    • 특히 zero-shot style VC에서는 Variational AutoEncoder (VAE)나 CycleGAN, StarGAN과 같은 Generative Adversarial Network (GAN) 방식이 주로 활용됨
      - BUT, human speech에는 intonation, rhythm과 같은 emotional-independent nuance와 다양한 style expression이 존재함
    • 특히 기존 zero-shot style VC system에는 다음의 한계점이 존재함:
      1. 모든 human speech를 categorize/annotate 하는 것은 어려우므로 style annotation을 사용하기 어려움
      2. Speaker timbre, linguistic content, speaking style 간의 intricate entanglement로 인해 style/timbre leakage가 발생할 수 있음
      3. 대부분 speaker verficiation network에서 얻어지는 global embedding에 의존하므로 zero-shot VC 성능도 제한됨

-> 그래서 target speaker의 speaking style을 효과적으로 반영할 수 있는 zero-shot style VC model인 ZSVC를 제안

 

  • ZSVC
    • Speech codec을 사용하여 input speech로부터 speech token을 추출한 다음, latent diffusion model을 통해 speech token의 speaking style을 modulate
      - 이후 speech prompting mechanism과 couple 하여 in-context learning을 지원함
    • Information bottleneck을 적용하여 speech token 내의 speaking style을 isolate하고, prompted speech에서 speaker timbre를 distrub하는 Uncertainty Modeling Adaptive Instance Normalization (UMAdaIN)을 도입
      - 이를 통해  다양한 speech component 간의 entanglement 문제를 해결함
    • 추가적으로 in-context learning과 zero-shot style similarity를 개선하기 위해 adversarial training을 채택

< Overall of ZSVC >

  • Speech codec과 latent diffusion model을 활용한 zero-shot style VC model
  • 결과적으로 zero-shot scenario에서 기존보다 우수한 speaking style similarity를 달성

2. Method

  • ZSVC는 speech codec과 latent diffusion model을 기반으로 함
    • 먼저 speech codec encoder는 input speech에서 speech token을 추출하고 speech codec decoder는 speech token으로부터 speech waveform을 reconstruct 함
    • Latent diffusion model은 latent encoder, variance adaptor, SoundStorm decoder로 구성되어 speech token의 speaking style을 jointly modulate 함
      - 이때 speech prompting mechanism은 prompt encoder를 통해 variance adaptor와 SoundStorm decoder에 integrate 되어 in-context learning을 통해 speaking style을 control 함

Overall of ZSVC

- Disentangled Latent Encoder and Prompt Encoder

  • Speech token은 linguistic content, speaker timbre, speaking style을 모두 encapsulate 하여 high-quality reconstruction을 지원함
    • 따라서 potential leakage를 방지하기 위해서는 speech token에서 speaking style과 speaker timbre를 효과적으로 disentangle 해야 함
    • 이를 위해 latent encoder는 bottleneck layer, transformer block, inverse Length Regulator (LR)로 구성됨
      1. 먼저 input speech token은 speech codec codebook을 traverse하여 token embedding으로 얻어짐
      2. 이후 해당 embedding은 bottleneck layer를 통해 low-dimensional space (64-dimension)로 project 되어 unnecessary information을 eliminate 함
      3. 최종적으로 low-dimensional embedding은 transformer block과 phone-level duration을 가지는 inverse LR을 통과하여 phone-level hidden sequence $H$로 project 됨
      4. 이때 additional information bottleneck인 vector quantization (VQ) commit loss를 $H$에 적용하여 linguistic cluster를 구성함
        - VQ는 서로 다른 speaking style의 hidden sequence $H$를 same linguistic cluster에 mapping 하여 $H$ 내에서 speaking style을 further filtering 함
    • 한편으로 Instance Normalization (IN)을 통해 대부분의 speaker timbre를 eliminate 할 수 있으므로, 논문은 StyleSinger의 Uncertainty Modeling Layer Normalization (UMLN)에 기반한 UMAdaIN을 도입함
      - UMAdaIN은 prompt encoder에서 speaker timbre를 perturb 하고 disentangle 하는 역할을 수행함
    • 먼저 prompt speech token은 codebook에 전달되어 prompt embedding $Z^{P}$를 생성함
      1. 여기서 $Z^{P}$의 mean $\mu$, variance $\sigma$를 계산한 다음, $\mu,\sigma$를 averaging 하여 scale $\bar{\mu}$, bias $\bar{\sigma}$ vector를 얻음 
      2. 이때 speaker information을 perturb 하기 위해 논문은 Gaussian distribution을 사용하여 speaker embedding의 uncertainty scope를 modeling 함
        - 즉, standard Gaussian distribution에서 $\omega_{1},\omega_{2}$를 sampling 함
      3. 결과적으로 얻어지는 speaker-agnostic hidden representation은:
        (Eq. 1) $\text{UMAdaIN}(x)=\omega_{1}\odot \bar{\mu}\odot \frac{x-\mu}{\sigma}+\omega_{2}\odot \bar{\sigma}$
        - 해당 speaker-agnostic hidden representation은 transformer block으로 전달되어 style representation $Z_{sty}$를 생성함

- SoundStorm-based Latent Diffusion

  • Phone-level hidden sequence $H$, style representation $Z_{sty}$가 주어지면 variance adaptor는 duration, pitch를 predict 함
    • 이후 hidden sequence $H$는 duration을 기준으로 frame-level expand 되고 pitch embedding과 combine 되어 final condition information $c$를 구성함
    • 결과적으로 condition $c$는 SoundStorm decoder로 전달되어 speech token을 predict 하는데 사용됨
      1. 즉, condition $c$와 $Z_{sty}$가 주어졌을 때 speech token $Z_{0:T}$를 predict 하는 process는:
        (Eq. 2) $p(Z_{0:T}|c,Z_{sty};\theta_{s})=\prod_{t=0}^{T}p(Z_{t}|Z_{<t},c,Z_{sty};\theta_{s})$
        - $\theta_{s}$ : SoundStorm decoder parameter, $T$ : speech codec의 quantizer 수
      2. 여기서 논문은 masking function $m(i)$를 사용하여 각 time step $i$에서 $Z_{t}$의 subset을 mask, predict 하기 위해 (Eq. 2)를 다음과 같이 expand 함:
        (Eq. 3) $p(Z_{0:T}|c,Z_{sty};\theta_{s})=\prod_{t=0}^{T}\prod_{i=0}^{n}p\left(m(i)\odot Z_{t}| (1-m(i))\odot Z_{t},Z_{<t},c,Z_{sty};\theta_{s}\right)$
        - $n$ : total decoding step
        - 이때 VALL-E와 같이 Q-K-V attention을 통해 speech prompt $Z_{sty}$를 incorporate 함

ZSVC Architecture

- Enhancing In-Context Learning with Adversarial Training

  • 논문은 speaking style converting에서 in-context learning을 향상하기 위해 variance adaptor 내에 adversarial training을 incorporate 함
    • 먼저 hidden sequence $H$와 $Z_{sty}$가 주어지면 variance adaptor는 다음과 같이 duration $D$, pitch $P$를 predict 함:
      (Eq. 4) $\mathcal{L}_{va}=p(D,P|H,Z_{sty};\theta_{va})$
      - $\theta_{va}$ : variance adaptor parameter
    • Adversarial training 시에는 variance adaptor에서 $Z_{sty}$와 Q-K-V attention을 제거하고 $H$에 Gradient Reversal Layer (GRL)을 도입함:
      (Eq. 5) $\mathcal{L}_{va'}=p(D,P|\text{GRL}(H);\theta_{va'})$
      - $\theta_{va'}$ : GRL을 적용한 modified variance adaptor parameter
    • 해당 adversarial training을 통해 $H$의 residual speaking style을 remove 하고 $Z_{sty}$에 focus 하여 speaking style을 효과적으로 capture 하도록 함 

- Training and Inference

  • NaturalSpeech2를 따라 target speech의 random segment를 prompt speech로 사용하고 나머지 segment는 input speech로 사용함
    • 그러면 ZSVC의 training objective는:
      (Eq. 6) $\mathcal{L}=\mathcal{L}_{diff}+\mathcal{L}_{VQ}+\mathcal{L}_{va}+\lambda_{grl}\mathcal{L}_{va'}$
      - $\mathcal{L}_{diff}$ : predicted/ground-truth token 간의 Cross-Entropy loss
      - $\mathcal{L}_{VQ}$ : $H$에 대한 VQ commit loss
      - $\mathcal{L}_{va},\mathcal{L}_{va'}$ : predicted/ground-truth pitch/duration 간의 $L1$ loss
      - $\lambda_{grl}=0.5$ : adversarial training weight 
    • 추론 시에는 source speech, prompt speech가 주어지면, source speech의 linguistic content와 speaker timbre를 preserve 하면서 prompt speech의 speaking style을 incorporate 함

3. Experiments

- Settings

  • Dataset : MLS
  • Comparisons : LGVC, StyleVC

- Results

  • ZSVC는 style similarity 측면에서 우수한 성능을 보임

Subjective Evaluation

  • Objective evaluation 측면에서도 우수한 성능을 보임

Objective Evaluation

  • Visual Analysis
    • $t$-SNE 측면에서 ZSVC는 speaker timbre를 효과적으로 maintain 함

$t$-SNE

  • Ablation Study
    • ZSVC의 각 component를 제거하는 경우 성능 저하가 발생함

Ablation Study

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday