티스토리 뷰
Paper/Vocoder
[Paper 리뷰] QHM-GAN: Neural Vocoder based on Quasi-Harmonic Modeling
feVeRin 2024. 10. 27. 12:19반응형
QHM-GAN: Neural Vocoder based on Quasi-Harmonic Modeling
- 기존 end-to-end neural vocoder는 black-box nature로 인해 speech의 intrinsic structure를 revealing 하지 못하므로 고품질 합성의 한계가 있음
- QHM-GAN
- Quasi-Harmonic Model을 기반으로 network architecture를 개선
- Speech signal을 quasi-harmonic component로 parameterize 하여 고품질 합성을 지원하고, time consumption과 network size를 절감
- 논문 (INTERSPEECH 2024) : Paper Link
1. Introduction
- Vocoder는 acoustic feature로부터 speech를 합성하는 역할을 수행함
- 초기의 vocoder는 WORLD와 같이 Conventional Signal Processing (CSP) method를 기반으로 구성되었음
- 최근에는 Deep Neural Network (DNN)를 기반으로 acoustic feature sequence와 target speech signal 간의 mapping을 학습하는 neural vocoder를 사용함
- 특히 Generative Adversarial Network (GAN)에 기반한 Parallel WaveGAN, MelGAN 등은 뛰어난 품질로 vocoding을 수행할 수 있음
- 예시로, HiFi-GAN은 frequency-domain에서 compressing을 수행하는 동안 time-domain에서 mel-spectrogram과 같은 acoustic feature를 upsampling 함
- 결과적으로 위 과정을 여러 번 반복하여 multi-dimensional acoustic feature를 1-dimensional speech waveform으로 변환 - BUT, 해당 neural vocoder는 고품질의 speech를 제공할 수 있지만 합성 속도가 느리고, fundamental frequency $f_{0}$ input이 없는 경우 speech를 directly adjust 할 수 없다는 한계가 있음
- 이를 위해 SiFi-GAN과 같이 source-filter architecture를 도입할 수 있지만, black-box nature로 인해 hidden feature가 acoustic principle을 따르는지 보장할 수 없어 안정적인 $f_{0}$ control이 어려움
- CSP method는 neural vocoder와 달리 linear transform을 사용하여 speech를 STFT와 같은 Time-Frequency (TF) domain의 acoustic feature로 encoding 한 다음, inverse tramsform을 통해 speech waveform으로 decoding 함
- 대표적으로 source-filter-based vocoder인 WORLD는 빠른 합성 속도와 TF-domain에서의 뛰어난 controllability가 장점이지만, inaccurate extraction으로 인한 품질의 한계가 있음
- 한편으로 Quasi-Harmonic Model (QHM)은 speech waveform의 spectral amplitude와 phase를 quasi-harmonic component로 modeling 하여 perfect reconstruction이 가능
-> 그래서 QHM과 neural vocoder를 결합한 QHM-GAN을 제안
- QHM-GAN
- QHM과 neural vocoder를 결합하여 합성 품질, 추론 속도, controllability를 향상
- 즉, DNN이 제공하는 acoustic feature를 사용하여 QHM을 기반으로 synthesis process를 최적화
< Overall of QHM-GAN >
- QHM과 neural network를 결합한 vocoder
- 결과적으로 기존보다 뛰어난 성능을 달성
2. Related Works
- QHM Methods
- QHM method는 sinusoidal model로써,
- 각 signal frame이 harmonic component의 combination으로 represent 될 수 있다는 가정을 기반으로 함:
(Eq. 1) $x(t)=\left(\sum_{k=-K}^{K}a_{k}e^{j2\pi f_{k}t}\right)w(t),\,\, t\in[-T_{l},T_{l}]$
- $a_{k}, f_{k}$ : $k$-th component의 complex amplitude, frequency
- $w(\cdot)$ : length가 $2T_{l}$인 moving window - 여기서 local stationarity assumption으로 인해 대부분의 pitch detector는 deviated $f_{0}$를 제공하므로, other sinusoidal model은 accurate parameter extraction이 어려움
- 따라서 QHM method는 frame-wise model을 사용하여 real signal과 match 하는 방식으로 complex amplitude를 추출함:
(Eq. 2a) $\text{QHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})e^{j2\pi \hat{f}_{k}t}\right]w(t)$
(Eq. 2b) $\text{aQHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})e^{j2\Phi_{k}t}\right]w(t)$
(Eq. 2c) $\text{eaQHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})\frac{A_{k}(t+t_{l})}{A_{k}(t_{l})}e^{j\Phi_{k}(t)} \right]w(t)$ - $\Phi_{k}(t)=\hat{\varphi}_{k}(t+t_{l})-\hat{\varphi}_{k}(t_{l})\,\,\text{and} \,\, t\in[-T_{l},T_{l}]$
- $\hat{f}_{k}, b_{k}$ : initially estimated frequecny, $k$-th component의 complex slope
- $A_{k}(t), \hat{\varphi}_{k}(t)$ : $k$-th harmonic component의 amplitude, phase function
- $t_{l}$ : moving window의 center
- 따라서 QHM method는 frame-wise model을 사용하여 real signal과 match 하는 방식으로 complex amplitude를 추출함:
- $b_{k}$는 model이 singal을 adaptively matching 하고 accurate initial frequency 내에서 original speech와 synthetic speech 간의 error를 compensating 하도록 함
- Model과 target speech 간의 Least Squares (LS)를 통해 (Eq. 2a), (Eq. 2b), (Eq. 2c)를 solve 하여 $a_{k}, b_{k}$를 얻음
- 그러면 accurate frequency는 다음과 같이 얻어짐:
(Eq. 3) $f_{k}=\hat{f}_{k}+\eta_{k}=\hat{f}_{k}+\frac{1}{2\pi}\frac{ a_{k}^{R}b_{k}^{I}-a_{k}^{I}b_{k}^{R}}{|a_{k}|^{2}}$
- $a_{k}^{R},a_{k}^{I}, b_{k}^{R}, b_{k}^{I}$ : $a_{k},b_{k}$의 real, imaginary part - Signal을 stationary로 취급하는 QHM과 달리, aQHM은 (Eq. 2b)와 같이 ground-truth와 match 하기 위해 non-stationary phase function $\Phi_{k}(t)$를 사용함
- 이는 speech signal이 amplitude와 frequency가 time에 따라 varying 하는 non-stationary signal (AM-FM signal)이라는 것과 같음 - aQHM에 따라, eaQHM은 (Eq. 2c)와 같이 amplitude part에 amplifier를 추가하여 real waveform에 근사함
- Model이 amplitude와 phase 모두의 non-stationary를 match 하는 capability를 더 많이 얻을수록 amplitude, phase extraction은 정확해지므로 더 높은 품질의 speech를 construct 할 수 있음
- BUT, QHM의 analysis process는 time-consuming 하고, aQHM과 eaQHM은 iteration이 필요함
- 먼저 phase function을 얻기 위해 QHM을 사용하여 frequency를 correct 하고 interpolate 하면:
(Eq. 4) $\varphi_{k}(t)=\varphi_{k}(t_{l})+\int_{t_{l}}^{t_{l}+t}2\pi f_{k}(u)\text{d}u,\,\, t\in[-T_{l},T_{l}]$ - 이후 non-stationary amplitude와 phase function은 $a_{k}, b_{k}$의 extraction을 위해 subtract 됨
- 생성된 speech가 original speech에 가까워질 때까지 frequency가 iteratively update 됨 - 결과적으로 unvoiced speech를 포함한 whole speech는 quasi-harmonic component의 complex amplitude와 frequency 만으로 accurately modeling 될 수 있음
- 먼저 phase function을 얻기 위해 QHM을 사용하여 frequency를 correct 하고 interpolate 하면:
- 합성 과정에서 frame-wise amplitude와 phase는 instantaneous version으로 interpolate 됨:
(Eq. 5) $A_{k}(t_{l})=|a_{k}(t_{l})|,\,\, \varphi_{k}(t_{l})=\angle a_{k}(t_{l})$ - 특히 instantaneous phase는 special way로 결정됨:
(Eq. 6) $\hat{\varphi}_{k}(t)=\hat{\varphi}_{k}(t_{l})+\int_{t_{l}}^{t_{l}+t}2\pi \hat{f}_{k}(u)+z\sin\left[\frac{\pi(u-t_{l-1})}{t_{l}-t_{l-1}}\right]\text{d}u$
- $\hat{\varphi}_{k}(t_{l})$ : (Eq. 5)에서 얻어진 previous frame phase - 이때 $z$는:
$z=\frac{\pi[\hat{\varphi}_{k}(t_{l+1}) + 2\pi M-\tilde{\varphi}_{k}(t_{l+1})]}{2(t_{l+1}-t_{l})}$
- $\tilde{\varphi}_{k}(t_{l+1})$ : (Eq. 4)로 얻어짐
- $M$ : $|\hat{\varphi}_{k}(t_{l+1})-\tilde{\varphi}_{k}(t_{l+1})|/2\pi$에 가장 가까운 정수
- 이는 QHM이 $\tilde{\varphi}_{k}(t_{l+1})=\hat{\varphi}_{k}(t_{l+1})+2\pi M$를 보장할 수 없고, (Eq. 6)은 고품질 합성을 위해 phase를 smooth 하는데 필수적이기 때문
- 각 signal frame이 harmonic component의 combination으로 represent 될 수 있다는 가정을 기반으로 함:
- HiFi-GAN
- HiFi-GAN은 multi-scale, multi-period discriminator를 기반으로 함
- Generator는 transposed convolution layer를 사용하여 target speech의 resolution과 match 되도록 feature를 upsample 하고 hidden feature는 Multi-Receptive Field Fusion (MRF) module로 전달됨
- MRF는 residual block으로 구성되고 각 block은 multi-dilation size를 사용하여 multi-scale way로 input을 perceive 함 - Discriminator는 생성된 speech와 ground-truth를 distinguish 하도록 training 됨
- 여기서 generator는 adversarial loss $\mathcal{L}_{g, adv}$, feature matching loss $\mathcal{L}_{fm}$, mel-spectrogram loss $\mathcal{L}_{mel}$로 최적화됨:
(Eq. 7) $\mathcal{L}_{G}=\mathcal{L}_{g,adv}+\lambda_{fm}\mathcal{L}_{fm}+\lambda_{mel}\mathcal{L}_{mel}$
- $\lambda_{fm}, \lambda_{mel}$ : weight
- Discriminator의 경우, adversarial loss $\mathcal{L}_{d, adv}$ 만으로 최적화됨 - BUT, HiFi-GAN은 generator의 transposed convolution으로 인해 생성과정이 time-consuming 하고, speech의 intrinsic structure를 interpret 하지 못하므로 speech를 scaling 하기 어려움
- 즉, $f_{0}$ prior를 input 하지 않으면 extrapolation을 수행할 수 없고, $f_{0}$ input을 가지는 modified HiFi-GAN 역시 training data에서 observe 된 $f_{0}$ range 내에서만 control이 가능함
- Generator는 transposed convolution layer를 사용하여 target speech의 resolution과 match 되도록 feature를 upsample 하고 hidden feature는 Multi-Receptive Field Fusion (MRF) module로 전달됨
3. Method
- QHM-GAN은 generation speed를 가속하고 quality를 향상하기 위해 CSP method와 neural vocoder를 결합함
- 특히 QHM은 quasi-harmonic component를 사용하여 voiced/unvoiced speech를 sparsely modeling 함
- 따라서 mel-spectrogram-to-speech structure 대신 mel-spectrogram-to-feature network를 채택하여 quasi-harmonic feature를 생성함
- 이를 통해 speech composition reveal과 고품질 resynthesize가 가능
- Modified Synthesis Process
- Synthesis process는 frame-wise parameter ($f_{0}, amplitude, phase)로부터 speech를 생성하는 것을 목표로 함
- BUT, (Eq. 6)을 적용하기 위해서는 $\tilde{\varphi}_{k}(t_{l+1})$과 unwrapped $\hat{\varphi}_{k}(t_{l+1})$ 간의 error가 작아야 함
- 즉, vocoder는 scratch로 phase를 추정해야 하므로 DNN을 단순히 적용하는 것은 어려움 - 따라서 논문은 DNN이 accurate phase를 생성할 수 있도록 pitch detector에서 얻어진 prior $\hat{f}_{0}$를 사용하여 individual frame 간의 phase difference를 결정함
- 먼저 QHM의 frequency adjust ability를 emulate 하기 위해 neural network가 각 frame center $\Delta \varphi_{k}^{i}$에서 각 component의 phase compensation을 생성하도록 함
- 즉, (Eq. 4)의 $\tilde{\varphi}_{k}(t_{l+1})$과 unwrapped ground-truth $\varphi_{k}(t_{l+1})$ 간의 difference를 얻음 - 이후 instantaneous frequency $\hat{f}_{k}(t)=k\hat{f}_{0}(t)$를 사용하여 각 frame의 corrected phase를 다음과 같이 결정함:
(Eq. 8) $\hat{\varphi}_{k}(t_{l})=\int_{0}^{t_{l}}2\pi\hat{f}_{k}(u)\text{d}u+\sum_{i=0}^{l} \Delta\varphi_{k}^{i}$
- 먼저 QHM의 frequency adjust ability를 emulate 하기 위해 neural network가 각 frame center $\Delta \varphi_{k}^{i}$에서 각 component의 phase compensation을 생성하도록 함
- Phase compensation은 아래 그림과 같이 표현됨
- 일반적으로 pitch detector로 얻어진 estimated frequency $\hat{f}_{k}(t)$는 true-value에서 deviate 되어있고, deviated phase $\tilde{\varphi}_{k}(t_{l+1})$을 가짐
- 이때 phase compensation $\Delta\varphi_{k}^{l}$은 DNN에 의해 추정되어 deviated phase에 더해짐 - 그러면 corrected frame-wise phase는 instantaneous phase를 depict 하기 위해 cubically interpolate 되고, DNN의 estimated frame-wise amplitude로 interpolate 된 instantaneous phase와 함께 합성에 사용됨
- 위 과정을 통해 frequency $\hat{f}_{k}$는 voiced/unvoiced segment에 approximate 하는 autonomous adjustment capability를 얻을 수 있음 - 결과적으로 해당 frequency와 phase는 QHM method의 quasi-harmonics와 유사하게 speech에 대한 better matching을 허용함
- 따라서 phase compensation을 proportionally scaling 하여 desired phase를 얻을 수 있음
- 일반적으로 pitch detector로 얻어진 estimated frequency $\hat{f}_{k}(t)$는 true-value에서 deviate 되어있고, deviated phase $\tilde{\varphi}_{k}(t_{l+1})$을 가짐
- BUT, (Eq. 6)을 적용하기 위해서는 $\tilde{\varphi}_{k}(t_{l+1})$과 unwrapped $\hat{\varphi}_{k}(t_{l+1})$ 간의 error가 작아야 함
- Network Architecture
- Network는 resynthesis를 위한 acoustic feature (amplitdue, phase compensation $\Delta\varphi_{k}^{l}$)를 생성하는 것을 목표로 함
- 구조적으로 QHM-GAN은 HiFi-GAN을 기반으로 함
- 이때 HiFi-GAN과 달리 output은 frame-wise이므로 network은 data를 upsampling 할 필요가 없음
- 따라서 아래 그림과 같이 mel-spectrogram과 $\hat{f}_{0}$를 absorbing 하여 speech의 intrinsic composition을 excavating 하는 network를 구축함
- 여기서 linguistic, speaker information을 포함한 mel-spectrogram은 spectral envelope hidden feature를 예측하는 데 사용되고 $\hat{f}_{0}$는 speech pitch control을 지원함 - 특히 mel-spectrogram layer는 transposed convolution layer를 normal convolution layer로 대체한 다음, MRF로 connect 함
- Activation은 leaky ReLU를 사용
- 한편으로 prior $f_{0}$의 flow에 따라 pseudo-STFT를 생성할 수 있음:
(Eq. 9) $S_{x}(t_{l},\omega)=\sum_{k=-K}^{K}e^{-\frac{\sigma^{2} [\omega-2\pi f_{k}(t_{l})]^{2}}{2}}$
- $t_{l}$ : $l$-th frame의 center, $f_{k}(t_{l})=kf_{0}(t_{l})$
- 해당 pseudo-spectrogram은 $f_{k}(t_{l})$ 주위에 several Gaussian function을 distribute 함 - 여기서 several normal CNN (F-CNN)을 사용하여 $S_{x}(t_{l},\omega)$에서 frequency feature를 dig out 할 수 있음
- 추가적으로 mel-spectrogram과 $\hat{f}_{0}$ 간의 relationship을 향상하기 위해 각 MRF의 output을 해당 F-CNN의 output과 concatenate 한 다음, 해당 concatenated matrix를 다음 F-CNN의 input으로 사용함
- Final F-CNN의 output latent feature는 final MRF output과 multiply 됨 - Network 끝 부분에서 2개의 separated normal CNN block은 multiplied result로부터 quasi-harmonics의 amplitude, phase compensation을 생성하는 데 사용됨
- 여기서 hyperbolic tangent function은 output을 $[-1,1]$로 limit 하는 역할 - 최종적으로 frame-wise amplitude output은 interpolate 되고 frame-wise phase compensation은 pitch detector로 추정된 $\hat{f}_{0}$와 함께 frame-wise phase를 (Eq. 8)과 같이 correct 함
- 추가적으로 mel-spectrogram과 $\hat{f}_{0}$ 간의 relationship을 향상하기 위해 각 MRF의 output을 해당 F-CNN의 output과 concatenate 한 다음, 해당 concatenated matrix를 다음 F-CNN의 input으로 사용함
- 해당 synthesis process와 DNN inference는 differentiable 하고 loss back-propagation이 가능함
- 추가적으로 sparse modeling과 frequency correction을 포함 - QHM-GAN은 wave를 upsampling 할 필요가 없으므로 same resolution으로 mel-spectrogram에서 feature를 생성함
- 이를 통해 network에 대한 learning pressure를 크게 줄일 수 있고, MRF 수나 dilation을 줄이는 것과 같이 structure를 simplify 할 수 있음
- 추가적으로 speech를 modifying 할 때 서로 다른 $\hat{f}_{0}$를 input 하여 modified amplitude와 original phase compensation을 얻을 수 있음
- 구조적으로 QHM-GAN은 HiFi-GAN을 기반으로 함
- Training
- QHM-GAN의 training process는 HiFi-GAN과 동일한 대신 UnivNet의 discriminator를 채택함
- 해당 discriminator는 waveform의 multi-period와 spectrogram의 multi-resolution 측면에서 speech를 discriminate 함
- 기존 multi-scale discriminator와 비교하여 multi-resolution discriminator는 frequency에 더 sensitive 하므로 training에 효과적임
4. Experiments
- Settings
- Results
- 전체적으로 QHM-GAN이 가장 우수한 성능을 보임
반응형
'Paper > Vocoder' 카테고리의 다른 글
댓글