티스토리 뷰

반응형

S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations


  • Any-to-Any Voice Conversion은 seen/unseen speaker의 모든 utterance로 변환을 수행할 수 있어야 함
  • S2VC
    • Source/target feature로 self-supervised feature를 사용
    • Speaker-independent 하고 content information을 추출할 수 있는 supervised phoneme posteriorgram을 baseline feature로 선정
  • 논문 (INTERSPEECH 2021) : Paper Link

1. Introduction

  • Self-Supervised Learning (SSL)은 unlabeled data를 활용할 수 있다는 장점이 있음
    • 특히 speech corpus에서 pretrain된 SSL model은 downstream task에서 활용할 수 있는 representation을 제공함 
    • Voice Conversion (VC)는 original phonetic content를 preserve 하면서 source utterance를 target speaker로 변환하는 것을 목표로 함
      1. 일반적으로 VC는 source/target utterance에서 contet/speaker information을 disentangle 하여 수행됨
      2. 대표적으로 Phoneme PosteriorGram (PPG)와 같은 supervised pretrained representation은 VC task에 적합한 information을 제공
        - PPG는 speaker-independent하므로 speaker characteristic을 제거하는데 적합하기 때문
    • 한편으로 FragmentVC와 같이 SSL representation을 활용하여 any-to-any VC로 task를 확장할 수도 있음

-> 그래서 다양한 pretrained SSL representation을 활용한 any-to-any VC model인 S2VC를 제안

 

  • S2VC
    • SSL representation에서 phonetic information 뿐만 아니라 target speaker information도 추출
    • Autoregressive Predictive Coding (APC), Contrastive Predictive Coding (CPC), Wav2Vec 2.0 등에 대한 다양한 SSL representation을 비교

< Overall of S2VC >

  • 다양한 SSL representation과 FragmentVC를 결합
  • 결과적으로 SSL representation을 사용해 기존 PPG 보다 뛰어난 conversion 성능을 달성

2. Method

  • S2VC는 pretrained SSL moddel을 통해 source/target feature를 추출하여 사용함

Overall of S2VC

- Baseline: FragmentVC

  • S2VC는 FragmentVC를 기반으로 구축됨
    • 구조적으로 FragmentVC는 source encoder, target encoder, cross attention module, decoder로 구성 
    • Cross attention은 아래 그림과 같이 source encoder의 output feature Q를 가져오고 target encoder에서 두 개의 output feature K,V를 가져와서 사용함
      1. Target encoder output feature sequence K는 source encoder output Q에 의해 attend됨
      2. 해당 architecture에서 cross attention module은 source feature를 유사한 speech content를 가지는 target feature에 align 하는 방법을 학습하게 됨
    • 최종적으로 decoder는 attention-argumented feature V로부터 converted mel-spectrogram을 생성함
    • Encoder는 explicit constraint 없이 content/speaker information을 disentangle 하는 방법을 학습함

Cross Attention

- Modifications

  • S2VC는 source/target feature를 align 하기 위해 다음을 반영하여 cross-attention module을 개선함
    1. Self-attention pooling은 source encoder가 encoding 한 representation을 target encoder가 encoding한 representation과 가까워지도록 함
    2. Attention information bottleneck은 Q,K로 encoding 된 representation에서 redundant information을 제거해 attention이 phonetic content information만 고려하도록 함
  • Self-Attention Pooling
    • Self-attention pooling은 time-invariant feature를 추출하는데 효과적이므로, 논문에서는 이를 활용하여 target encoder의 representation을 추출함
    • 이후 추출된 representation은 source encoder에 반영되어 source encoder의 representation을 target encoder의 representation에 가까워지도록 함
  • Attention Information Bottleneck
    • AdaIN-VC에서 instance normalization은 speaker-dependent information을 제거하는데 효과적인 것으로 나타남
    • 마찬가지로 AutoVC는 encoder layer의 hidden dimension을 사용하여 speaker-independent content information을 추출함
    • 따라서 논문에서는 Q,K 모두에 instance normalization을 적용하여 attention layer에 결합한 다음, bottleneck layer를 추가하여 speaker information을 제거함

- SSL Representations

  • SSL Representation으로는 APC, CPC, Wav2Vec 2.0을 고려할 수 있음
    • APC는 RNN-based language model과 유사한 방식으로 representation을 학습함
      - Mel-spectrogram을 input으로 하여 past에 대한 future conditioning을 예측하는 autoregressive 방식을 활용
    • 한편으로 CPC, Wav2Vec 2.0은 waveform을 input으로 사용함
      1. CPC는 autoregressive 하게 동작하지만, compact latent space에서 예측이 수행되고 probabilistic contrastive loss를 최적화하여 학습됨
      2. Wav2Vec 2.0은 autoregressive prediction을 BERT-like masked language model로 대체하여 CPC를 개선함
    • 이때 기존 FragmentVC에서는 source encoder input으로 wav2vec 2.0 representation을 사용하고, target encoder에서는 target speaker의 mel-spectrogram을 사용함
      - 이와 달리 S2VC에서는 APC, CPC, wav2vec 2.0에 대한 여러 representation 조합을 source/target encoder에 적용

3. Experiments

- Settings

- Results

  • Mel-spectrogram, PPG, APC, CPC, wav2vec 2.0에 대한 각각의 representation을 비교해 보면, CPC+CPC의 성능이 가장 뛰어난 것으로 나타남

Representation 별 성능 비교

  • MOS 측면에서도 CPC representation이 가장 우수함

MOS 비교

  • Unseen-to-Unseen conversion에서도 CPC가 가장 뛰어난 성능을 보임

Unseen-to-Unseen Conversion 성능

  • Speaker Information Probing Analysis
    • CPC를 source/target feature로 사용하는 model에 대해 query Q, key K, value V에 대한 speaker classification (SC)를 수행해 보면,
    • Query, Key feature에 대한 SC accuracy는 상당히 낮게 측정됨
      - 즉, instance normalization과 bottleneck이 speaker-dependent information을 효과적으로 제거할 수 있음
    • Value의 경우, CPC를 사용할 때 더 높은 accuracy를 달성함
      - 즉, CPC는 VC에 필요한 rich speaker information을 제공할 수 있음

Speaker Information Probing

  • Ablation Study
    • 각 component를 제거하는 경우, S2VC의 성능이 저하됨

Ablation Study

 

반응형
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday