티스토리 뷰
Paper/SVS
[Paper 리뷰] SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-Filter Model
feVeRin 2024. 5. 3. 10:19반응형
SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-Filter Model
- High-fidelity human-like singing voice synthesis를 위해 source-filter mechanism을 활용할 수 있음
- SiFiSinger
- VITS에서 확장된 training paradigm을 활용하고 fundamental pitch (
) predictor, waveform decoder 등의 component를 통합F0 - Interwined mel-spectrogram과
characteristic을 decouple하기 위해 mel-cepstrum feature를 활용F0 - Pitch nuance를 보다 정확하게 capture할 수 있도록
representation으로써 source excitation signal을 도입F0 - 추가적으로 생성된 음성의 speech envelope와 pitch에 대한 prediction accuracy를 fortify 하기 위해 differentiable mel-cepstrum,
loss를 사용F0
- VITS에서 확장된 training paradigm을 활용하고 fundamental pitch (
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- Singing voice synthesis (SVS)는 노래 가사와 musical score를 바탕으로 가창 음성을 합성하는 것을 목표로 함
- 일반적으로 SVS system은 2-stage 방식으로 구성됨
- Musical score로 부터 lyrical, musical information을 추출하고 mel-spectrogram과 같은 acoustic feature를 예측하는 acoustic model
- 해당 feature를 audible waveform으로 변환하는 vocoder - 한편으로 VISinger와 같은 end-to-end 방식은 주어진 musical score로부터 waveform을 직접 합성함
- 이때 VITS architecture를 기반으로 variational autoencoder (VAE)-based posterior encoder, prior encoder, adversarial decoder를 활용
- 확장된 VISinger2는 length regulator,
predictor를 통해 encoding 과정에서 posterior/prior distribution 모두에 대한 frame-level mean, variance를 모델링F0
- 추가적으로 latent representation으로 부터 harmonic, aperiodic component를 모델링하기 위해 Differentiable Digital Signal Processing (DDSP)를 활용
- DDSP synthesizer로 얻어진 signal은 adversarial decoder에 대한 conditional input 역할을 하여 text-to-phase의 어려움을 해결하고 품질을 향상할 수 있음
- BUT, 위와 같은 end-to-end 방식을 SVS에 적용할 때 다음의 몇 가지 문제점이 존재함
- 일반적인 text-to-speech (TTS) 보다 pitch accuracy를 더 중요하게 고려할 수 있어야 함
- 는 linguistic lyrics보다 musical note에 직접적으로 관련되어 있기 때문F0 - Acoustic feature로 주로 사용되는 mel-spectrogram은
와 spectral envelope와 entangling 되어 있으므로, error propagation으로 이어짐F0
- 즉, modeling에 대한 bias가 발생하므로 prediction accuracy에 영향을 미칠 수 있음F0 - DDSP synthesizer는 text-to-phase modeling에 유용하지만, prior hidden vector prediction/subsequent audio generation에서
information에 대한 consistent 한 활용이 어려움F0
- 결과적으로 합성 품질 저하와 pitch inaccuracy 문제로 이어짐
- 일반적인 text-to-speech (TTS) 보다 pitch accuracy를 더 중요하게 고려할 수 있어야 함
- 일반적으로 SVS system은 2-stage 방식으로 구성됨
-> 그래서 source-filter mechanism을 활용하는 end-to-end SVS 모델인 SiFiSinger를 제안
- SiFiSinger
- 먼저 source-filter model에서
- Source는 foundational sound나 waveform을 생성하는 vocal cord의 vibration과 관련되어 있음
- Filter는 source에서 생성된 음성이 vocal tract를 통해 이동하는 과정으로 볼 수 있음 - 따라서 해당 source-filter model을 기반으로 SiFiSinger에서,
는 prior encoder의 source module을 통해 처리하여F0 에 의해 control되는 multiple harmonics를 생성함F0 - Source module로 처리된
excitation은 decoder의 HiFi-GAN generator의 pitch embedding으로 사용되어 waveform 생성에 대한 pitch control을 보장함F0 - 추가적으로
, phase information에서 decouple 된 spectral envelope information을 capture 하기 위해 mel-cepstrumF0 feature를 활용mcep
- 이는 source-filter model의 filter component로 취급할 수 있음
- 즉, 로 생성된 source excitation signal과F0 feature를 concatenating 하여 prior/posterior encoder의 acoustic modeling process를 neural source-filter model로 변형mcep - 이후 generator를 통해 합성된 audio에서
과mcep 를 re-extract 하기 위해 differentiable method를 적용하고, ground-truth에 대한 loss를 계산F0
- 이를 통해 gradient backpropagation을 구현하고, 전체 모델에 대한 source 와 filterF0 를 통해 효과적인 separated supervision을 도움mcep
- 먼저 source-filter model에서
< Overall of SiFiSinger >
- VITS에서 확장된 framework를 기반으로
predictor, waveform decoder 등의 component를 통합F0 - Interwined mel-spectrogram과
characteristic을 decouple 하기 위해 mel-cepstrum feature를 활용하고 differentiable loss를 적용F0 - 결과적으로 기존 방법들 보다 우수한 성능을 달성
2. Method
- SiFiSinger는 conditional VAE framework를 기반으로 하는 VITS, VISinger2와 유사하고, prior encoder, posterior encoder, waveform decoder로 구성됨
- Source Module
- Source module은
sequenceF0 를 사용하여f1:T 와 같은 sinusoidal excitation을 생성하도록 설계됨e1:T={e1,...,eT} 이고et∈R,t∈{1,...,T} 는t -th time step을 의미t - 그러면 sinusoidal excitation
의 생성은 다음과 같음:e<0>1:T
(Eq. 1)e<0>t={αsin(∑tk=12πfkNs+ϕ)+nt,ifft>013σnt,ifft=0
- ,nt∼N(0,σ2) : random initial phase,ϕ : sampling rateNs
- : source waveform의 amplitude를 adjust 하는 hyperparameter,α : Gaussian noise의 표준편차σ - 이때 source module은
-th harmonic overtone이h -th harmonic frequency에 해당하는 harmonic overtone을 생성함(h+1)
- 결과적으로 sinusoidal excitation 는 (Eq. 1)의e<h>1:T 를 통해 구해짐(h+1)ft - Final step에서 source module은 trainable feed-forward (FF) layer를 사용하여
를 merge 함e<0>1:T,e<h>1:T
- 이러한 -controlled harmonic generation mechanism을 통해 module은 합성된 음성이 desired pitch와 closely align 되도록 보장하고, 전반적인 SVS 품질과 naturalness를 향상할 수 있음F0

- Prior Encoder
- Prior encoder의 구조는 FastSpeech의 feed-forward transformer (FFT) block과 length regulator를 활용함
- Prior encoder는 duration predictor와
acoustic decoder를 포함하고, 둘 다 music score를 input으로 사용F0,mcep - Training 중에 ground-truth duration에 대한
feature와mcep 는 다음의 loss functionF0 로 학습된 acoustic decoder로부터 생성됨:Lam
(Eq. 2)Lam=λ1MSE(LF0,LF0pred)+λ2||mcep−mceppred||1
- : 각각 예측된LF0pred,mceppred log-F0,mcep
- : coefficient,λ1,λ2 : mean squared error lossMSE(⋅) - SiFiSinger는
와 entangle되지 않으면서 audio envelope information을 capture하기 위해F0 feature를 사용함mcep
- 는 앞선 source module을 통해 처리되어 rapidly oscillating periodic sinusoidal harmonics를 제공하고, 해당 excitation signal은F0 feature와 concatenate됨mcep
- 이때 human sining의 pronunciation mechanism을 imitate하기 위해 spectral envelope feature와 pitch information을 개별적으로 모델링함 - Duration predictor는 phoneme과 note의 duration을 예측하고 duration loss
를 계산함Ldur
- 추론 시에 length regulator는 해당 duration predictor의 output을 length reference로 사용 - 결과적으로 music score encoder의 output인
feature와 acoustic model (AM) source module의 excitation signal을 기반으로, AM decoder는 frame-level prior distribution의 평균, 분산을 예측함mcep
- 이후 prior hidden vector 를 sampling할 수도 있음z
- Prior encoder는 duration predictor와
- Posterior Encoder
- Posterior encoder는 VISinger2를 backbone으로 하여
개의 1D convolution layer와 LayerNorm으로 구성됨N - 이때 SiFiSinger는
feature와mcep 를 posterior encoder의 input으로 사용F0
- Prior encoder와 비슷하게, frame-level acoustic feature를 고려하여 posterior distribution의 평균과 분산을 예측
- 이후 posterior latent vector 를 얻기 위해 re-sampling procedure를 적용z - Training 중에 해당 posterior
와 prior는 KL divergence lossz 을 통해 constrained 됨Lkl
- 이때 SiFiSinger는
- Decoder
- Decoder는 latent distribution
를 input으로 하여 waveformz 를 생성하는 HiFi-GAN generator로 구성됨ˆy - 먼저 합성된 waveform
에서 mel-spectrogram을 추출하여 mel-spectrogram lossˆy 을 계산Lmel - 이때 decoder 내에서 generation process 동안 strong pitch information을 제공하기 위해 source module에서 생성된 excitation signal을 활용
- Frame-level
는 먼저 sample-level로 upsampling된 다음, source module을 통과해 excitation signal을 생성함F0 - 이후 점진적으로 downsampling된 다음, generator로 upsampling된
와 combine되어 waveform generation process에 대한 multi-scale pitch information을 제공z
- Frame-level
- SiFiSinger는 generator
에 의해 생성된 waveformG 와 ground-truthˆy 를 distinguish하는 discriminatory 를 기반으로 하는 adversarial learning approach를 채택함:D
(Eq. 3)Ladv(D)=E(y,z)[(D(y)−1)2+(D(G(z)))2]
(Eq. 4)Ladv(G)=Ez[(D(G(z))−1)2]
(Eq. 5)Lfm(G)=E(y,z)[∑Tl=11Nl||Dl(y)−Dl(G(z))||1]
- 즉, least-squares loss와 feature-matching loss로 구성됨
- : discriminator의 layer 수,T : discriminator의l -th layer,l :Nl -th layer의 feature 수l - Generator loss
는:LG
(Eq. 6)LG=Ladv(G)+λmelLmel+λfmLfm(G)
- 먼저 합성된 waveform
- Differentiable Reconstruction Loss
- 추가적으로 논문에서는 trained CREPE와 diffsptk를 사용하여 generator로 생성된 waveform
에서ˆy 을 differentiable manner로 re-extract 함F0,mcep - 먼저 CREPE는 raw-audio waveform에서 직접 pitch를 예측하도록 training 된 convolution network를 활용하는
estimation method로써 audio pitch의 probability distribution을 output 함F0
- 원래의 CREPE model은 예측된 probability를 기반으로 를 얻기 위해F0 나 Viterbi와 같은 decoding을 사용함argmax
- BUT, 해당 방식에는 gradient backpropagation을 불가능하게 하는 non-differentiable operation이 존재함 - 따라서 input waveform에 대한 gradient backpropagation을 위해, original CREPE의 non-differentiable operation을 재구현함
- 먼저 최종 예측된
value를 얻기 위해, 해당 frequency scale의 예측 pitch probability distribution에 대한 weighted sum을 수행F0
- 여기서 CREPE는 16kHz의 sampling rate로 training 되므로 generator에서 얻어진 waveform 와 ground-truthˆy 를 16kHz로 resampling 하여y 를 얻음ˆyrs,yrs - 다음으로 weighted sum을 수행하여
에서ˆyrs,yrs 를 re-extract 하고, 그에 따른 loss를 계산F0
- 먼저 최종 예측된
feature의 경우 diffsptk를 사용해 framing, windowing, STFT 등에 대한 differentiable operation을 구현함mcep - 이를 통해 합성된 waveform
에서ˆy feature를 differentiably extract 하고 ground-truthmcep 을 통해 loss를 계산할 수 있음:mcep
(Eq. 7)yrs=Resampler(y),ˆyrs=Resampler(ˆy)
(Eq. 8)LF0=λf0MSE(F0(yrs),F0(ˆyrs))
(Eq. 9)Lmcep=λmcep||mcep(y)−mcep(ˆy)||1
- : 각각 CREPE, diffsptk를 사용하여F0(⋅),mcep(⋅) feature를 re-extract 하는 functionF0,mcep
- : coefficient,λf0,λmcep : resamping functionResampler(⋅) - 위의 differentiable operation을 통해 reconstruction loss의 gradient를 HiFi-GAN generator에서 SiFiSinger의 다른 module로 backpropagate 가능함
- 이때 CREPE의 parameter는 fixed 됨
- 이를 통해 합성된 waveform
- 결과적으로 전체 training procedure에 대한 total loss는:
(Eq. 10)L=LG+Lkl+Lam+Ldur+Lmcep+LF0
(Eq. 11)L(D)=Ladv(D)
- : (Eq. 3)의 discriminator loss,L(D) : (Eq. 6)의 generator lossLG
- Training 중에는 과L 가 alternatley optimize 됨L(D)
- 먼저 CREPE는 raw-audio waveform에서 직접 pitch를 예측하도록 training 된 convolution network를 활용하는
3. Experiments
- Settings
- Dataset : OpenCPop
- Comparisons : VISinger2
- Results
- Objective Evaluation
- 정량적 지표 측면에서 SiFiSinger는 가장 우수한 성능을 달성함
- 특히 SiFiSinger는 낮은 spectral distortion을 보이므로, spectral information을 보다 정확하게 예측할 수 있음

- Pitch contour를 확인해 보면 VISinger2는 부정확한 descending tone을 생성하지만, SiFiSinger는 ground-truth의 pitch contour와 가까운 결과를 생성함

- Subjective Evaluation
- MOS 측면에서도 SiFiSinger가 가장 우수한 것으로 나타남
- 한편으로 AM source module을 제거하는 경우 pitch accuracy, harmonic modeling 측면에서 낮은 선호도를 보임
- Differentiable reconstruction loss를 제거하는 경우에도 SiFiSinger의 선호도 하락이 발생함


반응형