티스토리 뷰
Paper/SVS
[Paper 리뷰] MIDI-Voice: Expressive Zero-Shot Singing Voice Synthesis via MIDI-Driven Priors
feVeRin 2024. 5. 13. 10:29반응형
MIDI-Voice: Expressive Zero-Shot Singing Voice Synthesis via MIDI-Driven Priors
- 기존의 Singing Voice Synthesis 모델은 unseen speaker와 fundamental frequency를 부정확하게 예측하므로 낮은 합성 품질을 보임
- MIDI-Voice
- 더 나은 singing voice style adaptation을 위해 MIDI-based prior를 score-based diffusion model에 적용
- 특히 MIDI-driven prior를 생성하여 note information을 반영하고 고품질의 style adaptation을 지원
- 추가적으로 expressive synthesis를 위해 DDSP-based MIDI-style prior를 구성
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- Singing Voice Synthesis (SVS)는 musical score로부터 expressive, natural singing voice를 합성하는 것을 목표로 함
- 일반적인 two-stage SVS 모델은 note, lyrics, speaker ID를 input으로 mel-spectrogram을 생성하는 acoustic model과 합성된 mel-spectrogram을 waveform으로 변환하는 vocoder로 구성됨
- 한편으로 합성 품질을 향상하기 위해 Generative Adversarial Network (GAN)나 diffusion-based 모델을 고려할 수 있음
- 이때 고품질의 합성을 위해서는 정확한 prior distribution을 생성할 수 있어야 함
- e.g.) diffusion-based SVS 모델의 경우 Gaussian distribution 대신 data-driven prior를 활용 - 한편으로 Fundamental frequency
모델링 역시 SVS 작업에서 상당히 중요함F0 - Singing voice의 expressiveness는
의 primary component인 baseline, microprosody, vibrato와 밀접하게 관련되어 있기 때문F0
- 이를 위해 Text-to-Speech (TTS)의 prediction method를 활용할 수 있지만, SVS에서의F0 예측에는 여전히 한계가 있음F0 - 특히
를 explicit 하게 예측하지 않는 경우, unseen speaker에 대해 부정확한 singing melody를 생성하게 됨F0
- 따라서 zero-shot SVS는 추론 단계에서 ground-truth pitch를 singing voice conversion을 위해 사용함
- BUT, 해당 ground-truth 를 사용하더라도 data-driven prior로 인해 부정확한F0 를 생성할 수 있음F0
- Singing voice의 expressiveness는
-> 그래서 고품질의 zero-shot SVS를 위한 score-based diffusion SVS 모델인 MIDI-Voice를 제안
- MIDI-Voice
- 기존의 data-driven prior 대신 Musical Instrument Digital Interface (MIDI)-based prior를 사용하여 singing voice Mel-spectrogram을 생성
- 이를 통해 부정확한 로 인한 SVS 품질 저하를 방지할 수 있음F0 - 추가적으로 singing style adaptation을 지원하는 additional information을 반영한 MIDI-style prior를 얻기 위해 Differentiable Digital Signal Processing (DDSP)을 채택
- 결과적으로 MIDI-based prior는 speaker information이 아닌 note information 만을 반영하므로 robust 한 zero-shot SVS가 가능함
- 기존의 data-driven prior 대신 Musical Instrument Digital Interface (MIDI)-based prior를 사용하여 singing voice Mel-spectrogram을 생성
< Overall of MIDI-Voice >
- Zero-shot SVS를 위해 MIDI-based prior를 diffusion model에 도입
- DDSP를 사용하여 MIDI-style prior에 더 나은 singing voice style transfer 능력을 반영
- 결과적으로 기존 방식들보다 뛰어난 zero-shot SVS 성능을 달성
2. Method
- Zero-shot SVS는 target speaker와 musical score에 adapting 하여 고품질의 singing voice를 생성하는 것을 목표로 함
- 이때 MIDI-Voice는 style encoder, condition encoder, prior generator, diffusion-based Mel decoder로 구성됨

- Style Encoder
- Zero-shot SVS를 위해 Meta-StyleSpeech의 style encoder를 사용하여 style vector
를 추출함ω - Style encoder는 spectral/temporal processor, multi-head attention과 temporal average pooling이 있는 transformer layer로 구성됨
- 결과적으로 style encoder는 reference mel-spectrogram을 input으로 하여 style vector를 output 함 - 이때 single speaker는 전체 노래에 대해 동일한 singing style을 유지하지 않으므로, training 중에 동일한 speaker의 다른 singing voice에서 reference mel-spectrogram을 random sampling 함
- 이를 통해 style encoder가 단순히 reference mel-spectrogram을 기반으로 singing style을 변경하지 않도록 보장
- Style encoder는 spectral/temporal processor, multi-head attention과 temporal average pooling이 있는 transformer layer로 구성됨
- Condition Encoder
- Condition encoder는 text encoder, note encoder, auxiliary encoder의 3가지 encoder로 구성됨
- 먼저 text encoder는 lyrics의 phoneme으로부터 linguistic representation을 추출
- Note encoder는 phoneme-level note pitch sequence에서 pitch representation을 추출한 다음, length regulating operation 이전에 두 phoneme-level representation을 추가함
- 이때 musical score로부터 duration이 이미 결정되어 있으므로 target singing voice의 duration으로 representation을 expand 할 수 있음 - Auxiliary encoder는 extended representation과
로부터 condition representationω 를 encoding 함hcond - 여기서 diffusion-based Mel decoder의 condition으로 해당 condition representation을 사용
- 더 정확한 pronunciation과 pitch information을 포함하는 condition representation을 얻기 위해, 다음의 condition loss
를 추가함:Lc
(Eq. 1)Lc=∑Ti=0(hcond−Y)2
- : target mel-spectrogramY

- Diffusion Modelling
- Diffusion model은 Markov chain을 사용하여 Gaussian distribution
에 의해 생성된 prior noise distribution을 점진적으로 denoise 하는 방식N(0,I) - 특히 score-based diffusion의 경우 해당 denoising process에 Stochastic Differential Equation (SDE)를 도입함
- 이때 score-based model은 Gaussian noise를 기반으로 한 prior noise distribution 대신에 data-driven prior로부터 sample을 생성할 수 있음 - 한편으로 MIDI-Voice는 data-driven prior 대신 MIDI-based prior를 사용하는 score-based diffusion model을 활용함
- 특히 score-based diffusion의 경우 해당 denoising process에 Stochastic Differential Equation (SDE)를 도입함
- MIDI-driven Prior
- Zero-shot SVS에서는 prior distribution의 결정이 중요하므로, speaker information을 포함하지 않는 정확한 pitch information을 통해 MIDI-driven prior를 생성함
- 해당 MIDI-driven prior를 통해 singing voice representation을 conditioning 하여 style을 adapting 하는 diffusion decoder의 성능을 향상할 수 있음 - 특히 diffusion model에서 data-driven prior로써 mel-spectrogram을 사용하면 diffusion-based Mel decoder의 adaptation 성능을 저하시킬 수 있음
- 따라서 MIDI-driven prior는 FluidSynth를 사용하여 MIDI file을 waveform으로 변환한 다음, STFT을 적용하여 생성됨
- Zero-shot SVS에서는 prior distribution의 결정이 중요하므로, speaker information을 포함하지 않는 정확한 pitch information을 통해 MIDI-driven prior를 생성함
- MIDI-style Prior
- MIDI-style prior는 expressive SVS를 위해 desired singing style의
와 loudness를 사용하여 prior를 생성함F0 - MIDI-style prior는 pre-trained DDSP에 대한 input으로 desired singing voice sample에서 추출된
와 loudness를 사용하여 얻어짐F0
- 여기서 training sample에는 reverb가 포함되지 않으므로 DDSP에서 room reverberation은 제거됨 - 결과적으로 instrumental sound를 포함하여 생성되는 MIDI-style prior에는 기존의 MIDI-driven prior 보다 더 expressive 한 style이 반영됨
- MIDI-style prior는 expressive SVS를 위해 desired singing style의
- Forward Diffusion
- Forward diffusion process는 Gaussian distribution
에서 추출된 noise를 infinite timeN(0,I) 에 걸쳐 점진적으로 data에 inject 하는 과정T - 따라서 논문에서는 MIDI-driven piror noise distribution
에서 noisy sample을 denoise 하는 것을 목표로 함:N(Mmidi,I)
(Eq. 2)dYt=12(Mmidi−Yt)βtdt+√βtdWt,t∈[0,T]
- : MIDI-driven prior / MIDI-style prior,Mmidi : continuous time stept
- : noise scheduling function,β : standard Brownian motionWt - 그러면 (Eq. 2)의 solution은:
(Eq. 3)Yt=(I−e−12∫t0βsds)Mmidi+e−12∫t0βsdsY0+∫t0√βs−e−12∫tsβududWs - Ito's integral에 따라, transition density
는 다음의 Gaussian distributionp(Yt|Y0) 와 같음:λ(I,t)
(Eq. 4)p(Yt|Y0)=(I−e−12∫t0βsds)Mmidi+e−12∫t0βsdsY0,λ(I,T)=I−e−12∫t0βsds
- 따라서 논문에서는 MIDI-driven piror noise distribution
- 따라서
는Yt 에 관계없이Y0 으로 수렴하고, SDE는 data distribution을N(Mmidi,I) 로 변환함N(Mmidi,I)
- Forward diffusion process는 Gaussian distribution
- Reverse Diffusion
- Reverse diffusion process는 noise에서 data sample까지 점진적으로 denoising을 수행하는 것
- 여기서 reverse diffusion에 대한 SDE는:
(Eq. 5)dYt=12((Mmidi−Yt)−∇logpt(Yt))βtdt+√βtd˜Wt
- : random variablept 의 probability density functionYt
- : reverse Brownian motion˜Wt - 한편으로 다음의 ordinary differential equation을 고려할 수도 있음:
(Eq. 6)dYt=12((Mmidi−Yt)−∇logpt(Yt))βtdt,t∈[0,T]
- 여기서 reverse diffusion에 대한 SDE는:
- 결과적으로 SDE를 사용하여
에서Yt 를 생성할 수 있음Y0
- 즉, MIDI-Voice는 에서 sampling 된N(Mmidi,I) 로부터Yt 를 생성함Y0
- Reverse diffusion process는 noise에서 data sample까지 점진적으로 denoising을 수행하는 것
- Training
- MIDI-Voice는 noisy data의 log-density에 해당하는 estimated gradient에 대한 기댓값을 계산함
- 여기서 time
까지 accumulate 된 noise로 corrupt 된 datat 의 log-density gradient를 추정하는 loss function은:Y0
(Eq. 7)Ldiff=Eϵt[||sθ(Yt,Mmidi,hcond,ω,t)+λ(I,t)−1ϵt||]
- : style vector,ω ϵt∈N(0,λ(I,t))
- : noise estimation networksθ - 최종적으로 MIDI-Voice는 noise estimator와 condition encoder를 jointly optimize 함:
(Eq. 8)L=Ldiff+Lc
- : (Eq. 7)의 diffusion loss,Ldiff : (Eq. 1)의 condition encoder lossLc
- 여기서 time
3. Experiments
- Settings
- Results
- 먼저 seen speaker에 대한 결과를 확인해 보면, MIDI-Voice가 가장 뛰어난 합성 성능을 보임
- 특히 data-driven prior 대신 MIDI-based prior를 사용하는 경우 diffusion model의 성능이 크게 향상됨

- Unseen speaker에 대한 zero-shot test의 경우에 대해서도 MIDI-Voice의 성능이 가장 뛰어남
- 이때 MIDI-Voice는 unseen speaker의 를 정확하게 반영할 수 있음F0

- Ablation study 측면에서
- Data-driven prior는 unseen speaker의 style을 반영하는 능력이 떨어지지만, MIDI-based prior는 note information이 포함되므로 zero-shot SVS에 대한 diffusion model의 adaptation을 향상할 수 있음
- Diffusion process의 iteration step에 따른 adaptation 성능을 비교해 보면
- Iteration step을 증가시키더라도 data-driven prior에는 이미 많은 양의 data가 포함되어 있기 때문에 adaptation의 한계가 있음
- 반면 MIDI-driven prior는 iteration step을 증가시켰을 때, adaptation 성능을 향상할 수 있음

반응형