티스토리 뷰
반응형
VoiceLDM: Text-to-Speech with Environmental Context
- Description prompt와 content prompt를 활용하여 audio를 생성할 수 있음
- Description prompt는 environmental context를 전달하고 content prompt는 linguistic information을 제공함 - VoiceLDM
- Latent diffusion model을 기반으로 하는 text-to-audio model을 채택하고 additional content prompt를 conditional input으로 활용할 수 있도록 확장
- Contrastive Language-Audio Pretraining과 Whisper를 활용하여 manual annotation, transcription 없이 training 됨
- 추가적으로 dual classifier-free guidance를 도입하여 controllability를 향상
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- 최근의 Text-to-Audio (TTA)는 natural language prompt에서 제공하는 semantic context를 반영하여 fidelity, diversity 측면에서 뛰어난 성능을 보이고 있음
- BUT, TTA model은 speech를 생성하는 prompt에 대해 incoherent babbling voice를 생성하는 경우가 많음
- 한편으로 PromptTTS, PromptStyle, InstructTTS와 같이 Text-to-Speech (TTS)에서도 audio style control을 위해 prompt를 활용할 수 있음
- BUT, controllable diversity는 gender, emotion, volume과 같은 speech-related factor로만 제한됨
-> 그래서 TTA model을 기반으로 한 TTS model인 VoiceLDM을 제안
- VoiceLDM
- Spoken utterance의 linguistic content를 specifying 하는 content prompt와 audio의 environmental context를 characterize 하는 description prompt를 활용
- Latent diffusion model을 활용한 TTA system인 AudioLDM을 기반으로 additional content prompt를 incorporate 해 conditional input을 사용할 수 있도록 확장
- Contrastive Language-Audio Pretraining (CLAP)과 Whisper를 활용해 real-world audio data로 training을 수행
- 추가적으로 dual classifier-free guidance를 도입하여 controllability를 향상
< Overall of VoiceLDM >
- Content prompt에 대한 conditional input을 incorporate 하여 latent diffusion 기반의 TTA model을 TTS로 확장
- 결과적으로 TTA의 diverse audio generation capability를 확보하면서 TTS 수준의 speech intelligibilty를 달성

2. Method
- Model Overview
- VoiceLDM은 2개의 natural language prompt
가 주어졌을 때, 두 condition을 모두 input으로 따르는 audiotextcont,textdesc 를 생성하는 것을 목표로 함X - Description prompt
는 pre-trained CLAP model에 의해 512-dimensional vectortextdesc 로 변환됨cdesc∈R512
- CLAP은 modality를 동일한 latent space에 project 하도록 설계되었으므로 reference audio를 사용하여 를 얻을 수도 있음cdesc - Content prompt
는 content encoder에 의해 hidden sequencetextcont 로 encoding 됨Hcont∈RL×D
- : sequence length,L : dimension sizeD - 이후 differentiable durator는 hidden sequence를
로 upsampling 함ccont∈RN×D
- 이고 differentiable durator는 NaturalSpeech와 동일하게 구성됨L≤N 로 parameterize 된 U-Net backbone은θ condition을 모두 취한 다음, diffusion scorecdesc,ccont 를 예측하기 위해 timestep embedding을 수행함ϵθ - Reverse diffusion process는 isotropic Gaussian distribution
에서 sampling 된 noise에서 시작하여,zT∼N(0,I) - Predicted diffusion score
로 각 time stepϵθ 에 대해t 를 iteratively denoise 해 initial audio priorzt 를 예측함z0 - 이후
는 pre-trained Variational AutoEncoder (VAE)에 의해 mel-spectrogram으로 decode 됨z0
- Predicted diffusion score
- 최종적으로 pre-trained HiFi-GAN vocoder를 사용하여 mel-spectrogram을 desired audio
로 변환함X
- Description prompt

- Training
- VoiceLDM의 training은 latent diffusion model training을 따름
- 먼저 audio
에서 시작하여 pre-trained VAE는 audio를 latent representationX 로 compress 함z0
- 이후 predefined noise schedule에 따라 forward diffusion process를 통해 에 noise를 적용하여 certain timestep에 대한z0 의 noisy representationz0 를 얻음zt - CLAP으로 인해 training 중에
를 얻는 과정에서 manually annotated description promptcdesc 는 필요하지 않음textdesc
- 대신 CLAP을 사용해 original audio 에서 descriptive conditionx 를 얻음cdesc - Content encoder와 differentiable durator는 speech transcription
를 content conditiontextcont 로 encoding 함ccont - 최종적으로 VoiceLDM은 re-weighted training objective를 사용하여 added noise
을 예측하도록 training 됨:ϵ
(Eq. 1)Lθ=||ϵ−ϵ(zt,t,cdesc,ccont)||22
- 이때 U-Net backbone, content encoder, differentiable durator의 parameter는 jointly training 됨
- Pre-trained CLAP model, pre-trained VAE, vocoder는 training 중에 freeze 됨
- 먼저 audio
- Dual Classifier-Free Guidance
- VoiceLDM에서 reverse diffusion process에 대한 classifier-free guidance가 각각의 condition
에 대해 independent 하게 적용될 수 있음cdesc,ccont - 따라서 이를 통해 각 individual condition에 대해 mode coverage와 sample fidelity를 trade-off 하여 controllability를 향상할 수 있음
- 먼저 두 condition
를 unified condition으로 보고 classifier-free guidance를 적용할 수 있음:cdesc,ccont
(Eq. 2)˜ϵθ(zt,cdesc,ccont)=ϵθ(zt,cdesc,ccont)+w(ϵθ(zt,cdesc,ccont)−ϵθ(zt,∅))
- : guidance strength,w : null condition∅ - 한편으로 dual classifier-free guidance를 사용하면 additional control이 가능하고, 이때 diffusion score
은:˜ϵ
(Eq. 3)˜ϵθ(zt,cdesc,ccont)=ϵθ(zt,cdesc,ccont)+wdesc(ϵθ(zt,cdesc,∅cont)−ϵθ(zt,∅desc,∅cont)) +wcont(ϵθ(zt,∅desc,ccont)−ϵθ(zt,∅desc,∅cont))
- 인 경우 (Eq. 2)와 동일wdesc=wcont - 결과적으로
를 manipulate 하여 individual condition에 대한 guidance strength를 regulate 할 수 있음wdesc,wcont
- 를 증가시키고wcont 를 감소시키면 style diversity와 linguistic accuracy가 향상된 audio를 얻을 수 있음wdesc - 추가적으로 추론 시 dual classifier-free guidance를 사용하기 위해 training 중에
condition이 independently random drop 됨cdesc,ccont
3. Experiments
- Settings
- Dataset : AudioSet, Common Voice, VoxCeleb, DEMAND
- Comparisons : FastSpeech2, SpeechT5, AudioLDM
- Results
- VoiceLDM은 input condition을 adhere 하면서 기존보다 뛰어난 합성 품질을 달성함

- Qualitative metric 측면에서도 우수한 성능을 보임

- Text-to-Speech Capability
- TTS 측면에서도 VoiceLDM은 ground-truth 이상의 linguistic intelligibility를 달성함

- Text-to-Audio Capability
- VoiceLDM은 TTA에 대해 specifically training 되지 않았음에도 불구하고 plausible audio를 생성함

- Effect of Dual Classifier-Free Guidance
- 높은
값을 사용하는 경우 speech intelligibilty가 높아지지만 description prompt에 대한 aherence는 감소함wcont - 반대로
를 높이는 경우 adherence는 향상할 수 있지만 intelligibilty가 저하됨wdesc
- 높은

반응형