티스토리 뷰

반응형

VoiceLDM: Text-to-Speech with Environmental Context


  • Description prompt와 content prompt를 활용하여 audio를 생성할 수 있음
    - Description prompt는 environmental context를 전달하고 content prompt는 linguistic information을 제공함
  • VoiceLDM
    • Latent diffusion model을 기반으로 하는 text-to-audio model을 채택하고 additional content prompt를 conditional input으로 활용할 수 있도록 확장
    • Contrastive Language-Audio Pretraining과 Whisper를 활용하여 manual annotation, transcription 없이 training 됨
    • 추가적으로 dual classifier-free guidance를 도입하여 controllability를 향상
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • 최근의 Text-to-Audio (TTA)는 natural language prompt에서 제공하는 semantic context를 반영하여 fidelity, diversity 측면에서 뛰어난 성능을 보이고 있음
    • BUT, TTA model은 speech를 생성하는 prompt에 대해 incoherent babbling voice를 생성하는 경우가 많음
    • 한편으로 PromptTTS, PromptStyle, InstructTTS와 같이 Text-to-Speech (TTS)에서도 audio style control을 위해 prompt를 활용할 수 있음
      - BUT, controllable diversity는 gender, emotion, volume과 같은 speech-related factor로만 제한됨

-> 그래서 TTA model을 기반으로 한 TTS model인 VoiceLDM을 제안

 

  • VoiceLDM
    • Spoken utterance의 linguistic content를 specifying 하는 content prompt와 audio의 environmental context를 characterize 하는 description prompt를 활용
    • Latent diffusion model을 활용한 TTA system인 AudioLDM을 기반으로 additional content prompt를 incorporate 해 conditional input을 사용할 수 있도록 확장
    • Contrastive Language-Audio Pretraining (CLAP)과 Whisper를 활용해 real-world audio data로 training을 수행
    • 추가적으로 dual classifier-free guidance를 도입하여 controllability를 향상

< Overall of VoiceLDM >

  • Content prompt에 대한 conditional input을 incorporate 하여 latent diffusion 기반의 TTA model을 TTS로 확장
  • 결과적으로 TTA의 diverse audio generation capability를 확보하면서 TTS 수준의 speech intelligibilty를 달성

Concept of VoiceLDM

2. Method

- Model Overview

  • VoiceLDM은 2개의 natural language prompt textcont,textdesc가 주어졌을 때, 두 condition을 모두 input으로 따르는 audio X를 생성하는 것을 목표로 함
    • Description prompt textdesc는 pre-trained CLAP model에 의해 512-dimensional vector cdescR512로 변환됨
      - CLAP은 modality를 동일한 latent space에 project 하도록 설계되었으므로 reference audio를 사용하여 cdesc를 얻을 수도 있음
    • Content prompt textcont는 content encoder에 의해 hidden sequence HcontRL×D로 encoding 됨
      - L : sequence length, D : dimension size
    • 이후 differentiable durator는 hidden sequence를 ccontRN×D로 upsampling 함
      - LN이고 differentiable durator는 NaturalSpeech와 동일하게 구성됨
    • θ로 parameterize 된 U-Net backbone은 cdesc,ccont condition을 모두 취한 다음, diffusion score ϵθ를 예측하기 위해 timestep embedding을 수행함
    • Reverse diffusion process는 isotropic Gaussian distribution zTN(0,I)에서 sampling 된 noise에서 시작하여,
      1. Predicted diffusion score ϵθ로 각 time step t에 대해 zt를 iteratively denoise 해 initial audio prior z0를 예측함
      2. 이후 z0는 pre-trained Variational AutoEncoder (VAE)에 의해 mel-spectrogram으로 decode 됨
    • 최종적으로 pre-trained HiFi-GAN vocoder를 사용하여 mel-spectrogram을 desired audio X로 변환함

Overall of VoiceLDM

- Training

  • VoiceLDM의 training은 latent diffusion model training을 따름 
    • 먼저 audio X에서 시작하여 pre-trained VAE는 audio를 latent representation z0로 compress 함
      - 이후 predefined noise schedule에 따라 forward diffusion process를 통해 z0에 noise를 적용하여 certain timestep에 대한 z0의 noisy representation zt를 얻음
    • CLAP으로 인해 training 중에 cdesc를 얻는 과정에서 manually annotated description prompt textdesc는 필요하지 않음
      - 대신 CLAP을 사용해 original audio x에서 descriptive condition cdesc를 얻음
    • Content encoder와 differentiable durator는 speech transcription textcont를 content condition ccont로 encoding 함 
    • 최종적으로 VoiceLDM은 re-weighted training objective를 사용하여 added noise ϵ을 예측하도록 training 됨:
      (Eq. 1) Lθ=||ϵϵ(zt,t,cdesc,ccont)||22
      - 이때 U-Net backbone, content encoder, differentiable durator의 parameter는 jointly training 됨

      - Pre-trained CLAP model, pre-trained VAE, vocoder는 training 중에 freeze 됨

- Dual Classifier-Free Guidance

  • VoiceLDM에서 reverse diffusion process에 대한 classifier-free guidance가 각각의 condition cdesc,ccont에 대해 independent 하게 적용될 수 있음
    • 따라서 이를 통해 각 individual condition에 대해 mode coverage와 sample fidelity를 trade-off 하여 controllability를 향상할 수 있음
    • 먼저 두 condition cdesc,ccont를 unified condition으로 보고 classifier-free guidance를 적용할 수 있음:
      (Eq. 2) ˜ϵθ(zt,cdesc,ccont)=ϵθ(zt,cdesc,ccont)+w(ϵθ(zt,cdesc,ccont)ϵθ(zt,))
      - w : guidance strength, : null condition
    • 한편으로 dual classifier-free guidance를 사용하면 additional control이 가능하고, 이때 diffusion score ˜ϵ:
      (Eq. 3) ˜ϵθ(zt,cdesc,ccont)=ϵθ(zt,cdesc,ccont)+wdesc(ϵθ(zt,cdesc,cont)ϵθ(zt,desc,cont))
      +wcont(ϵθ(zt,desc,ccont)ϵθ(zt,desc,cont))
      - wdesc=wcont인 경우 (Eq. 2)와 동일
    • 결과적으로 wdesc,wcont를 manipulate 하여 individual condition에 대한 guidance strength를 regulate 할 수 있음
      - wcont를 증가시키고 wdesc를 감소시키면 style diversity와 linguistic accuracy가 향상된 audio를 얻을 수 있음
    • 추가적으로 추론 시 dual classifier-free guidance를 사용하기 위해 training 중에 cdesc,ccont condition이 independently random drop 됨

3. Experiments

- Settings

  • Dataset : AudioSet, Common Voice, VoxCeleb, DEMAND
  • Comparisons : FastSpeech2, SpeechT5, AudioLDM

- Results

  • VoiceLDM은 input condition을 adhere 하면서 기존보다 뛰어난 합성 품질을 달성함

Quantitative Result

  • Qualitative metric 측면에서도 우수한 성능을 보임

Qualitative Result

  • Text-to-Speech Capability
    • TTS 측면에서도 VoiceLDM은 ground-truth 이상의 linguistic intelligibility를 달성함

TTS Result

  • Text-to-Audio Capability
    • VoiceLDM은 TTA에 대해 specifically training 되지 않았음에도 불구하고 plausible audio를 생성함

TTA Result

  • Effect of Dual Classifier-Free Guidance
    • 높은 wcont 값을 사용하는 경우 speech intelligibilty가 높아지지만 description prompt에 대한 aherence는 감소함
    • 반대로 wdesc를 높이는 경우 adherence는 향상할 수 있지만 intelligibilty가 저하됨

Classifier-Free Guidance의 효과

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Total
Today
Yesterday