티스토리 뷰

반응형

ReFlow-VC: Zero-Shot Voice Conversion based on Rectified Flow and Speaker Feature Optimization


  • Diffusion-based Voice Conversion model은 상당한 sampling step을 요구함
  • ReFlow-VC
    • Rectified Flow를 통해 Gaussian distribution을 direct path를 따라 true mel-spectrogram distribution으로 변환
    • 추가적으로 content, pitch information을 활용하여 speaker feature를 optimize
  • 논문 (INTERSPEECH 2025) : Paper Link

1. Introduction

  • Zero-Shot Voice Conversion (VC)는 linguistic content를 변경하지 않으면서 source speaker speech를 target speaker voice로 convert 하는 것을 목표로 함
    • 특히 zero-shot VC를 위해서는 content, timbre를 포함한 다양한 attribute를 disentangle 해야 함 
    • 기존의 zero-shot VC model은 source speaker의 speaking style과 linguistic content를 target speaker의 timbre와 combine 하여 converted speech를 생성함 
      1. 대표적으로 AutoVC는 pre-trained speaker verification network를 conditional input으로 사용함
        - BUT, speech signal의 complexity와 content, timbre modeling으로 인한 한계가 있음
      2. 추가적으로 대부분의 VC model은 CycleGAN-VC, StarGAN-VC와 같이 AutoEncoder, Generative Adversarial Network architecture에 의존적임
    • 한편으로 DiffVC, DDDM-VC 등은 Denoising Diffusion Probabilistic Model (DDPM)을 활용하여 high-quality sample을 생성함
      - BUT, diffusion model은 statisfactory sample을 얻기 위해 상당한 iteration이 필요함

-> 그래서 diffusion-based VC model의 추론 속도를 향상한 ReFlow-VC를 제안

 

  • ReFlow-VC
    • Rectified Flow Model을 기반으로 direct path를 통해 Gaussian distribution을 true mel-spectrogram distribution으로 transform
    • 추가적으로 cross-attention과 gated fusion을 통해 speaker feature에 대한 fine-grained control을 지원

< Overall of ReFlow-VC >

  • Rectified Flow Model을 활용한 zero-shot VC model
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

- Rectified Flow

  • Rectified Flow Model은 standard Gaussian distribution $\pi_{0}$를 straight-line을 통해 ground-truth distribution $\pi_{1}$으로 transform 하는 Ordinary Differential Equation (ODE) model에 해당함
    • Sample $X_{0}\sim \pi_{0}, X_{1}\sim \pi_{1}$이 주어졌을 때 rectified flow는:
      (Eq. 1) $dZ_{t}=v(Z_{t},t)dt$
      - $Z_{0}$는 $\pi_{0}$에서 얻어지고, transformation은 distribution $\pi_{1}$을 따름
      - $v$ : 두 distribution 간의 direction $(X_{1}-X_{0})$와 flow를 align 하는 drift force
    • 이때 flow는 least squares regression problem을 minimize 하여 학습됨:
      (Eq. 2) $ \min_{v}\int_{0}^{1}\left|\left| (X_{1}-X_{0})-v(X_{t},t)\right|\right|^{2}dt$
    • $X_{t}$는 $X_{0},X_{1}$ 간의 linear interpolation으로써:
      (Eq. 3) $X_{t}=tX_{1}+(1-t)X_{0}$
    • $X_{t}$의 naive evolution은 non-causal path $dX_{t}=(X_{1}-X_{0})dt$를 따르는 반면, rectified flow는 $(X_{1}-X_{0})$에 따라 $v$를 adjust 하여 trajectory가 any point에서도 cross 하지 않도록 함
      1. 이를 통해 rectified flow는 solution의 uniqueness를 preserve 할 수 있음
      2. 즉, rectified flow는 non-causal intersection을 avoid 하여 well-defined non-crossing path를 보장함
    • Training 시 rectified flow objective는 drift force $v$를 minimize 하는 것을 학습함:
      (Eq. 4) $\hat{\theta}=\arg\min_{\theta}\mathbb{E}\left[\left|\left| (X_{1}-X_{0})-v(X_{t},t)\right|\right|^{2}\right]$
      - $t\sim \text{Uniform}([0,1])$
    • Training 이후 학습된 model은 ODE $dZ_{t}=\hat{v}(Z_{t},t)dt$를 solve 하여 $X_{0}$를 $X_{1}$로 transform 함
      1. 해당 procedure는 recursively apply 할 수 있고, transformation sequence $Z'=\text{ReFlow}(Z_{0},Z_{1})$을 통해 transport efficiency를 개선하고 linear flow trajectory를 얻을 수 있음
      2. 이러한 recursive process를 통해 time-discretization error를 reduce 하고 flow simulating에 대한 computational advantage를 얻을 수 있음

Rectified Flow

- Rectified Flow Model for VC

  • ReFlow-VC는 feature fusion 이후 time $t$와 speaker condition feature $c$에 따라 noise distribution을 mel-spectrogram distribution으로 변환함
    • 먼저 $\pi_{0}$를 standard Gaussian distribution, $\pi_{1}$을 ground-truth mel-spectrogram data distribution이라고 하자
      - $X_{0}\sim \pi_{0}, X_{1}\sim \pi_{1}$
    • 그러면 ReFlow-VC의 training objective는:
      (Eq. 5) $ \mathcal{L}_{\theta}=\mathbb{E}\left[\left|\left| (X_{1}-X_{0})-v_{\theta}(X_{t},t,c)\right|\right|^{2}\right]$
      - $t\in \text{Uniform}([0,1])$, $X_{t}=tX_{1}+(1-t)X_{0}$
      - ReFlow-VC는 model $v_{\theta}$ output과 $(X_{1}-X_{0})$ 간의 $L2$ loss를 제외한 어떤 auxiliary loss도 필요하지 않음
    • 추론 시에는 speaker feature $c$에 condition 된 $Z_{0}\sim \pi_{0}$에서 시작하여 $v_{\theta}$를 기반으로 ODE를 directly solve 함
      1. High-fidelity generation의 경우 RK45 ODE solver를 사용하고, one-step generation의 경우 Euler ODE solver를 사용할 수 있음
      2. 추가적으로 recursive rectified flow를 VC에 적용하여 2-ReFlow-VC를 얻을 수 있음
        - 2-ReFlow-VC는 ReFlow-VC로 생성된 sample을 사용해 rectified flow model을 retrain 하는 것과 같음

3. Architecture

- Encoder

  • Encoder는 average voice encoder인 HuBERT-soft, speaker encoder인 VQ-VAE, feature fusion module로 구성됨
    • 논문은 DiffVC를 따라 speaker-independent speech representation으로 average phoneme-level mel feature를 채택함
      1. Source audio는 average voice encoder를 통해 average speaker mel $\text{Average_mel}$로 transform 됨
      2. HuBERT-soft는 continuous content feature를 추출하기 위해 사용됨
        - HuBERT-soft는 uncertainty를 modeling 하여 content information을 capture 하고 converted speech의 clarity, naturalness를 향상함
      3. Speaker Encoder는 YAPPT algorithm을 사용하여 audio에서 pitch ($F0$)를 추출하고 speaker-independent pitch information을 encoding 함
        - 각 sample의 $F0$는 각 speaker에 대해 normalize 되어 speaker-independent pitch information을 얻음
      4. VQ-VAE는 vector quantized pitch representation을 추출하는 데 사용됨
    • 논문은 timbre modeling capacity를 향상하기 위해 feature fusion module을 도입함
      1. 이를 위해 model은 speaker feature를 dynamically adjust 하고 content, pitch information을 통해 feature를 flexibly modify 하여 speaker characteristic의 expressiveness를 향상함 
      2. 추가적으로 cross-attention과 gating mechanism은 personalized speaker trait를 capture 하고, multiple attention과 self-attention mechanism은 naturalness를 향상하는 데 사용됨
    • 구조적으로 fusion encoder는 다음과 같이 구성됨
      1. Pitch conv projection layer는 input pitch feature dimension을 $1$에서 $256$으로 transform 함
      2. 이후 2개의 cross-attention layer는 서로 다른 feature 간의 mutual attention을 facilitate 함
        - 이때 각 layer는 $256$ dimension input을 receive 하여 $256$ dimension을 output 함
      3. Gated fusion module은 $256$-dimensional input의 information fusion effect를 향상함
      4. Self-attention mechanism은 $256$-dimensional input의 self-attention performance를 iteratively refine 하여 input의 key part에 gradually focusing 함
      5. Multi-head attention mechanism은 다양한 feature를 학습하고 focus 하는 ability를 강화함
        - 이때 $256$-dimensional input/output, $8$ attention head를 사용함

Overview

- Decoder

  • Decoder는 Grad-TTS와 같이 U-Net architecture를 기반으로 하고, human voice의 full range를 capture 하기 위해 4배 더 많은 channel을 가짐
    • Speaker conditioning network $g_{t}(Y)$는 2D convolution과 MLP layer로 구성됨 
    • 이때 output은 $128$-dimensional vector로써 $\hat{X}_{t},\bar{X}$의 concatenation과 함께 $128$ channel로 broadcast-concatenate 됨 

4. Experiments

- Settings

- Results

  • 전체적으로 ReFlow-VC의 성능이 가장 뛰어남

Model 성능 비교

  • 2-ReFlow-VC를 사용하면 ReFlow-VC 보다 조금 더 나은 SECS를 달성할 수 있음

ReFlow-VC vs. 2-ReFlow-VC

  • Rectified Flow는 동일한 sampling step에서 더 빠른 sampling speed를 보임

Sampling Speed

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/09   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Total
Today
Yesterday