티스토리 뷰
Paper/Vocoder
[Paper 리뷰] Hierarchical Diffusion Models for Singing Voice Neural Vocoder
feVeRin 2023. 9. 26. 12:15반응형
Hierarchical Diffusion Models for Singing Voice Neural Vocoder
- Pitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움
- 서로 다른 sampling rate에 대한 multiple diffusion model을 도입
- HPG (Hierarchical Diffusion Model + PriorGrad)
- Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성
- 다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성
- 논문 (ICASSP 2023) : Paper Link
1. Introduction
- Nerual vocoder는 nerual network를 사용하여 acoustic feature로부터 waveform을 생성
- Diffusion model은 high-fidelty sample을 합성할 수 있음
- Denoising diffusion probabilistic model (DDPM)은 Markov chain을 활용해 istropic Gaussian dist.를 복잡한 분포로 변환
- Forward process (=Diffusion process)는 GAN이나 VAE에서 발생하는 두 network의 joint training으로 인한 model collapse 문제를 해결 가능 - Neural vocoder에 diffusion model을 적용하면 고품질의 음성 데이터를 얻을 수 있지만, non-autoregressive vocoder에 비해 추론 속도가 느림
- PriorGrad는 mel-spectrogram의 frame-wise energy를 대각 공분산 행렬 요소로 가지는 Gaussian dist.를 data dependent prior로 사용해서 추론 속도를 향상
- Data dependent piror의 noise가 standard Gaussian noise 보다 target waveform에 더 가깝기 때문
- Diffusion model은 high-fidelty sample을 합성할 수 있음
- BUT, 기존의 neural vocoder들은 대부분 음성 합성에 초점을 두고 있음
- 가창 음성 합성(Singing Voice Synthesis, SVS)에 기존 vocoder를 적용하면 충분한 합성 품질을 보장하지 못함
- 충분한 가창 음성 데이터가 부족하고, pitch, loudness 등의 음악적 표현이 더 다양하기 때문
- 가창 음성 합성(Singing Voice Synthesis, SVS)에 기존 vocoder를 적용하면 충분한 합성 품질을 보장하지 못함
-> 그래서 서로 다른 sampling rate에서 multiple diffusion model을 학습하는 hierarchical diffusion model을 제안
- Hierarchical Diffusion Model
- Lower sampling rate와 acoustic feature에 대해 condition된 diffusion model을 병렬적으로 학습
- 추론 과정에서 lower sampling rate에서 higher sampling rate로 데이터를 점진적으로 생성
- Lower sampling rate에서는 정확한 pitch recovery를 위한 저주파 요소 생성에 초점
- Higher sampling rate에 대한 diffusion model은 고주파 요소 합성을 목표로 함
< Overall of This Paper >
- 고품질 가창 음성 합성을 위한 hierarchical diffusion model 기반 nerual vocoder
- 제안된 vocoder를 PriorGrad와 결합하여 최상의 가창 음성 합성 품질을 달성
2. Prior Work
- Denoising Diffusion Probabilistic Model (DDPM)
- DDPM은 forward/reverse process 두개의 Markov chain으로 구성
- Forward process
- Data
를 standard Gaussianx0 로 점진적으로 diffusion 하면,xT q(x1:T|x0)=∏Tt=1q(xt|xt−1)
- : noise scheduleq(xt|xt−1):=N(xt;√1−βtxt−1,βtI) 을 기반으로 small Gaussian noise를 추가한 time-stepβt∈{β1,...,βT} 에서의 전이확률t - 이때,
에서x0 를 직접 sampling하면,xt xt=√ˉαtx0+√(1−ˉαt)ϵ
- ,αt=1−βt ,ˉαt=∏ts=1αs ϵ∼N(0,I)
- Data
- Reverse process
- Prior noise
를 data로 점진적으로 변환하면,p(xT)=N(xT;0,I) p(x0:T)=p(xT)∏Tt=1pθ(xt−1|xt)
- :pθ(xt−1|xt):=N(xt−1;μθ(xt,t),σ2θ(xt,t)I) 로 parameterize된 neural network로부터 모델링 된θ 의 reverse에 대한 전이확률q(xt|xt−1) - 이때,
를 아래와 같이 나타내면,pθ(xt−1|xt) μθ(xt,t)=1√αt(xt−βt√1−ˉαtϵθ(xt,t))
-σ2θ(xt,t)=1−ˉαt−11−ˉαtβt
- : timeϵθ(xt,t) 에 추가된 noiset 을 예측하는 neural networkϵ
- Prior noise
- DDPM 최적화
- Model
를 ELBO를 maximize 하는 것으로 최적화하면,ϵ(xt,t) ELBO=C−∑Tt=1κtEx0,ϵ[||ϵ−ϵθ(xt,t)||2]
- : 상수C
- 일 때t>1 ,κt=βt2α(1−ˉαt−1) 일 때t=1 12α
- 로 설정하여 단순화된 loss를 활용할 수도 있음κt=1 - Acoustic feature
에 대한 noise estimation network를c 로 conditioning 하여 neural vocoder로써 사용ϵθ(xt,c,t) - DDPM vocoder는 prior
에서 sampling 된 noise에서 시작하여 conditionxT 에 기반해 신호c 의 noise를 반복적으로 denoise 하여 waveformxt 를 얻음x0
- Model
- PriorGrad
- DDPM의 standard Gaussian prior는 target data에 대한 대한 가정을 사용하지 않음
- 고품질의 data를 얻기 위해서 많은 단계를 필요로 하므로 효율적인 추론을 방해함
- Neural vocoder의 추론 효율성 향상을 위해 PriorGrad의 adaptive prior
를 사용N(0,Σc)
- : mel-spectrogramΣc 에서c 로 계산되는 diagonal varianceΣc=diag[(σ20,...,σ2L)]
- : mel-spectrogram의σ2i 번째 sample의 normalized frame-level energyi - 이때, loss function은 다음과 같이 수정될 수 있음
L=Ex0,ϵ,t[||ϵ−ϵθ(xt,c,t)||2Σ−1]
-||x||2Σ−1=xtΣ−1x - Adaptive prior의 power envelope가 standard Gaussian prior의 target 신호의 power envelope보다 가깝기 때문에 diffusion model이 더 빠르게 수렴할 수 있음
3. Proposed Method
- Hierarchical Diffusion Probabilistic Model
- PriorGrad는 음성 데이터에서는 효과적이지만 가창 음성에 대해서는 합성 품질이 떨어짐
- Pitch, loudness, vibrato, falestto와 같은 음악적 표현 때문
- 가창 음성을 multiple resolution으로 모델링하는 diffusion-based neural vocoder를 활용
- Hierarchical Diffusion Model
- Multiple sampling rate
가 주어지면, Hierarchical Diffusion Model은 각 sampling rate에 대해 독립적으로 학습됨f1s>f2s>...>fNs - 각 sampling rate
에 대한 reverse process는, common acoustic featurefis 과 lowest sampling rate의 model을 제외한 나머지 lower sampling ratec 의 data에 대해서 conditionfi+1s piθ(xit−1|xit,c,xt+10)
- Lowest sampling rate는 에 대해서만 conditionc
- Multiple sampling rate
- Training 단계에서,
- Noise estimation model
를 condition 하기 위해 ground truthϵiθ(xit,c,xi+10,t) 을 사용xi+10=Di(Hi(xi0))
- : anti-aliasing filter,Hi(.) :Di(.) sampling rate에서 신호에 대한 downsampling functionfis - Noise
은 original dataϵ 에 linear 하게 추가되므로, 모델은 ground truth lower-sampling rate datax0 에 직접적으로 access 할 수 있음xi+10 - 복잡한 feature-to-waveform 변환을 피함으로써 model이
와xit 의 저주파 구성 요소에 대한 noise를 간단하게 예측xi+10
- Model이 저주파 요소 대신 고주파 요소 변환에 집중하도록 유도
- Noise estimation model
- Inference 단계에서,
- Lowest sampling rate
에서 부터 data를 생성하고, 생성된 sampleˆxN0 을 condition으로 하여 점진적으로 higher sampling rateˆxi+10 에서 data를 생성ˆxi 을 condition으로 사용하면, 각 sampling ratexi+10 의 Nyquist frequency 주변에 noise가 생성됨f2s2,...,fNs2 - Training과 Inference의 차이 때문:
- Training에 사용된 ground truth data
xi+10=Di(Hi(xi0))
- Anti-aliasing filter로 인해 Nyquist frequency 주변의 신호를 포함하지 않음
- 결과적으로 model은 Nyquist frequency까지의 신호를 사용할 수 있는 방법을 학습함 - Inference에 사용된 generated sample
ˆxi+10
- 불완전한 예측으로 인해 Nyquist frequency 주변의 신호를 포함할 수 있음
- 결과적으로 higher sampling rate의 예측을 오염시킴
- Training에 사용된 ground truth data
- Lowest sampling rate
- Nyquist frequency 문제의 해결
- Generated lower sampling rate signal에 anti-aliasing filter를 적용해 noise prediction model을 conditioning
ˆϵ=ϵiθ(xit,c,H(ˆxi+10),t) - 결과적으로 Nyquist frequency 주변의 noise를 제거하여 합성 품질을 향상
- Generated lower sampling rate signal에 anti-aliasing filter를 적용해 noise prediction model을 conditioning
- Network Architecture
- DiffWave에 기반한 architecture
- Bidrectional dilated convolution과 repeated dilation factor를 가지는
개의 residual layerL
- Layer는 개의 block으로 그룹화m
- 각 block은 dilation factor가 인[1,2,...,2l−1] 개의 layer로 구성l=Lm - 모든 sampling rate에 대해 동일한 network architecture를 사용하면 sampling rate에 따라 model의 recpetive field가 변화함
- Sampling rate가 낮을수록 model은 더 긴 기간을 포함하고, 저주파 요소에 집중함
- Nyquist frequency 까지는 lower sampling ratefi+1s2 으로 condition 된 data를 사용하고 고주파 영역에 대해서는 acoustic feature를 변환할 수 있도록 만듦xi+10
- Bidrectional dilated convolution과 repeated dilation factor를 가지는
4. Experiments
- Settings
- Dataset : NUS48E, NHSS
- Comparisons : PriorGrad, Parallel WaveGAN (PWG)
- Results
- 제안한 방식이 가장 높은 MOS 품질을 달성
- 가창 음성에 vibrato가 있는 경우에도 제안한 방식은 부자연스러운 pitch를 생성하지 않기 때문
- 합성된 가창 음성에 대한 선호도 평가에서도, 제안한 방식이 85.3%의 선호도를 보임
- PMAE, VDE, MR-STFT, MCD 등에 대한 객관적인 품질 평가에 대해서도, 제안한 방식이 가장 좋은 성능을 보임
- 제안한 방식이 conditioning data를 어떻게 활용하는지 조사
- Mel-spectrogram을 0으로 대체하더라도 Nyquist frequency
에 대한 신호를 생성가능f2s2 - Lower sampling rate data
를 0으로 대체하면, 고주파 영역의 신호만 생성x20
- 저주파 영역 생성 시 의 정보가 사용되고, 고주파 영역은x20 에 의해서 생성됨c
- Mel-spectrogram을 0으로 대체하더라도 Nyquist frequency
반응형