티스토리 뷰

반응형

QHM-GAN: Neural Vocoder based on Quasi-Harmonic Modeling


  • 기존 end-to-end neural vocoder는 black-box nature로 인해 speech의 intrinsic structure를 revealing 하지 못하므로 고품질 합성의 한계가 있음
  • QHM-GAN
    • Quasi-Harmonic Model을 기반으로 network architecture를 개선
    • Speech signal을 quasi-harmonic component로 parameterize 하여 고품질 합성을 지원하고, time consumption과 network size를 절감
  • 논문 (INTERSPEECH 2024) : Paper Link

1. Introduction

  • Vocoder는 acoustic feature로부터 speech를 합성하는 역할을 수행함
    • 초기의 vocoder는 WORLD와 같이 Conventional Signal Processing (CSP) method를 기반으로 구성되었음
    • 최근에는 Deep Neural Network (DNN)를 기반으로 acoustic feature sequence와 target speech signal 간의 mapping을 학습하는 neural vocoder를 사용함 
      1. 특히 Generative Adversarial Network (GAN)에 기반한 Parallel WaveGAN, MelGAN 등은 뛰어난 품질로 vocoding을 수행할 수 있음
      2. 예시로, HiFi-GAN은 frequency-domain에서 compressing을 수행하는 동안 time-domain에서 mel-spectrogram과 같은 acoustic feature를 upsampling 함
        - 결과적으로 위 과정을 여러 번 반복하여 multi-dimensional acoustic feature를 1-dimensional speech waveform으로 변환
      3. BUT, 해당 neural vocoder는 고품질의 speech를 제공할 수 있지만 합성 속도가 느리고, fundamental frequency $f_{0}$ input이 없는 경우 speech를 directly adjust 할 수 없다는 한계가 있음
        - 이를 위해 SiFi-GAN과 같이 source-filter architecture를 도입할 수 있지만, black-box nature로 인해 hidden feature가 acoustic principle을 따르는지 보장할 수 없어 안정적인 $f_{0}$ control이 어려움
    • CSP method는 neural vocoder와 달리 linear transform을 사용하여 speech를 STFT와 같은 Time-Frequency (TF) domain의 acoustic feature로 encoding 한 다음, inverse tramsform을 통해 speech waveform으로 decoding 함 
      1. 대표적으로 source-filter-based vocoder인 WORLD는 빠른 합성 속도와 TF-domain에서의 뛰어난 controllability가 장점이지만, inaccurate extraction으로 인한 품질의 한계가 있음
      2. 한편으로 Quasi-Harmonic Model (QHM)은 speech waveform의 spectral amplitude와 phase를 quasi-harmonic component로 modeling 하여 perfect reconstruction이 가능 

-> 그래서 QHM과 neural vocoder를 결합한 QHM-GAN을 제안

 

  • QHM-GAN
    • QHM과 neural vocoder를 결합하여 합성 품질, 추론 속도, controllability를 향상
    • 즉, DNN이 제공하는 acoustic feature를 사용하여 QHM을 기반으로 synthesis process를 최적화

< Overall of QHM-GAN >

  • QHM과 neural network를 결합한 vocoder
  • 결과적으로 기존보다 뛰어난 성능을 달성

2. Related Works

- QHM Methods

  • QHM method는 sinusoidal model로써,
    • 각 signal frame이 harmonic component의 combination으로 represent 될 수 있다는 가정을 기반으로 함:
      (Eq. 1) $x(t)=\left(\sum_{k=-K}^{K}a_{k}e^{j2\pi f_{k}t}\right)w(t),\,\, t\in[-T_{l},T_{l}]$
      - $a_{k}, f_{k}$ : $k$-th component의 complex amplitude, frequency
      - $w(\cdot)$ : length가 $2T_{l}$인 moving window
    • 여기서 local stationarity assumption으로 인해 대부분의 pitch detector는 deviated $f_{0}$를 제공하므로, other sinusoidal model은 accurate parameter extraction이 어려움
      1. 따라서 QHM method는 frame-wise model을 사용하여 real signal과 match 하는 방식으로 complex amplitude를 추출함:
        (Eq. 2a) $\text{QHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})e^{j2\pi \hat{f}_{k}t}\right]w(t)$
        (Eq. 2b) $\text{aQHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})e^{j2\Phi_{k}t}\right]w(t)$
        (Eq. 2c) $\text{eaQHM}: x(t)=\left[\sum_{k=-K}^{K}(a_{k}+tb_{k})\frac{A_{k}(t+t_{l})}{A_{k}(t_{l})}e^{j\Phi_{k}(t)} \right]w(t)$
      2. $\Phi_{k}(t)=\hat{\varphi}_{k}(t+t_{l})-\hat{\varphi}_{k}(t_{l})\,\,\text{and} \,\, t\in[-T_{l},T_{l}]$
        - $\hat{f}_{k}, b_{k}$ : initially estimated frequecny, $k$-th component의 complex slope
        - $A_{k}(t), \hat{\varphi}_{k}(t)$ : $k$-th harmonic component의 amplitude, phase function
        - $t_{l}$ : moving window의 center
    • $b_{k}$는 model이 singal을 adaptively matching 하고 accurate initial frequency 내에서 original speech와 synthetic speech 간의 error를 compensating 하도록 함
      1. Model과 target speech 간의 Least Squares (LS)를 통해 (Eq. 2a), (Eq. 2b), (Eq. 2c)를 solve 하여 $a_{k}, b_{k}$를 얻음
      2. 그러면 accurate frequency는 다음과 같이 얻어짐:
        (Eq. 3) $f_{k}=\hat{f}_{k}+\eta_{k}=\hat{f}_{k}+\frac{1}{2\pi}\frac{ a_{k}^{R}b_{k}^{I}-a_{k}^{I}b_{k}^{R}}{|a_{k}|^{2}}$

        - $a_{k}^{R},a_{k}^{I}, b_{k}^{R}, b_{k}^{I}$ : $a_{k},b_{k}$의 real, imaginary part
      3. Signal을 stationary로 취급하는 QHM과 달리, aQHM은 (Eq. 2b)와 같이 ground-truth와 match 하기 위해 non-stationary phase function $\Phi_{k}(t)$를 사용함
        - 이는 speech signal이 amplitude와 frequency가 time에 따라 varying 하는 non-stationary signal (AM-FM signal)이라는 것과 같음
      4. aQHM에 따라, eaQHM은 (Eq. 2c)와 같이 amplitude part에 amplifier를 추가하여 real waveform에 근사함
        - Model이 amplitude와 phase 모두의 non-stationary를 match 하는 capability를 더 많이 얻을수록 amplitude, phase extraction은 정확해지므로 더 높은 품질의 speech를 construct 할 수 있음
    • BUT, QHM의 analysis process는 time-consuming 하고, aQHM과 eaQHM은 iteration이 필요함 
      1. 먼저 phase function을 얻기 위해 QHM을 사용하여 frequency를 correct 하고 interpolate 하면:
        (Eq. 4) $\varphi_{k}(t)=\varphi_{k}(t_{l})+\int_{t_{l}}^{t_{l}+t}2\pi f_{k}(u)\text{d}u,\,\, t\in[-T_{l},T_{l}]$
      2. 이후 non-stationary amplitude와 phase function은 $a_{k}, b_{k}$의 extraction을 위해 subtract 됨
        - 생성된 speech가 original speech에 가까워질 때까지 frequency가 iteratively update 됨
      3. 결과적으로 unvoiced speech를 포함한 whole speech는 quasi-harmonic component의 complex amplitude와 frequency 만으로 accurately modeling 될 수 있음
    • 합성 과정에서 frame-wise amplitude와 phase는 instantaneous version으로 interpolate 됨:
      (Eq. 5) $A_{k}(t_{l})=|a_{k}(t_{l})|,\,\, \varphi_{k}(t_{l})=\angle a_{k}(t_{l})$
    • 특히 instantaneous phase는 special way로 결정됨:
      (Eq. 6) $\hat{\varphi}_{k}(t)=\hat{\varphi}_{k}(t_{l})+\int_{t_{l}}^{t_{l}+t}2\pi \hat{f}_{k}(u)+z\sin\left[\frac{\pi(u-t_{l-1})}{t_{l}-t_{l-1}}\right]\text{d}u$
      - $\hat{\varphi}_{k}(t_{l})$ : (Eq. 5)에서 얻어진 previous frame phase
    • 이때 $z$는:
      $z=\frac{\pi[\hat{\varphi}_{k}(t_{l+1}) + 2\pi M-\tilde{\varphi}_{k}(t_{l+1})]}{2(t_{l+1}-t_{l})}$
      - $\tilde{\varphi}_{k}(t_{l+1})$ : (Eq. 4)로 얻어짐
      - $M$ : $|\hat{\varphi}_{k}(t_{l+1})-\tilde{\varphi}_{k}(t_{l+1})|/2\pi$에 가장 가까운 정수
      - 이는 QHM이 $\tilde{\varphi}_{k}(t_{l+1})=\hat{\varphi}_{k}(t_{l+1})+2\pi M$를 보장할 수 없고, (Eq. 6)은 고품질 합성을 위해 phase를 smooth 하는데 필수적이기 때문

- HiFi-GAN

  • HiFi-GAN은 multi-scale, multi-period discriminator를 기반으로 함
    • Generator는 transposed convolution layer를 사용하여 target speech의 resolution과 match 되도록 feature를 upsample 하고 hidden feature는 Multi-Receptive Field Fusion (MRF) module로 전달됨
      - MRF는 residual block으로 구성되고 각 block은 multi-dilation size를 사용하여 multi-scale way로 input을 perceive 함
    • Discriminator는 생성된 speech와 ground-truth를 distinguish 하도록 training 됨
    • 여기서 generator는 adversarial loss $\mathcal{L}_{g, adv}$, feature matching loss $\mathcal{L}_{fm}$, mel-spectrogram loss $\mathcal{L}_{mel}$로 최적화됨:
      (Eq. 7) $\mathcal{L}_{G}=\mathcal{L}_{g,adv}+\lambda_{fm}\mathcal{L}_{fm}+\lambda_{mel}\mathcal{L}_{mel}$
      - $\lambda_{fm}, \lambda_{mel}$ : weight
      - Discriminator의 경우, adversarial loss $\mathcal{L}_{d, adv}$ 만으로 최적화됨
    • BUT, HiFi-GAN은 generator의 transposed convolution으로 인해 생성과정이 time-consuming 하고, speech의 intrinsic structure를 interpret 하지 못하므로 speech를 scaling 하기 어려움
      - 즉, $f_{0}$ prior를 input 하지 않으면 extrapolation을 수행할 수 없고, $f_{0}$ input을 가지는 modified HiFi-GAN 역시 training data에서 observe 된 $f_{0}$ range 내에서만 control이 가능함

3. Method

  • QHM-GAN은 generation speed를 가속하고 quality를 향상하기 위해 CSP method와 neural vocoder를 결합함
    • 특히 QHM은 quasi-harmonic component를 사용하여 voiced/unvoiced speech를 sparsely modeling 함
    • 따라서 mel-spectrogram-to-speech structure 대신 mel-spectrogram-to-feature network를 채택하여 quasi-harmonic feature를 생성함
      - 이를 통해 speech composition reveal과 고품질 resynthesize가 가능

- Modified Synthesis Process

  • Synthesis process는 frame-wise parameter ($f_{0}, amplitude, phase)로부터 speech를 생성하는 것을 목표로 함 
    • BUT, (Eq. 6)을 적용하기 위해서는 $\tilde{\varphi}_{k}(t_{l+1})$과 unwrapped $\hat{\varphi}_{k}(t_{l+1})$ 간의 error가 작아야 함
      - 즉, vocoder는 scratch로 phase를 추정해야 하므로 DNN을 단순히 적용하는 것은 어려움
    • 따라서 논문은 DNN이 accurate phase를 생성할 수 있도록 pitch detector에서 얻어진 prior $\hat{f}_{0}$를 사용하여 individual frame 간의 phase difference를 결정함 
      1. 먼저 QHM의 frequency adjust ability를 emulate 하기 위해 neural network가 각 frame center $\Delta \varphi_{k}^{i}$에서 각 component의 phase compensation을 생성하도록 함
        - 즉, (Eq. 4)의 $\tilde{\varphi}_{k}(t_{l+1})$과 unwrapped ground-truth $\varphi_{k}(t_{l+1})$ 간의 difference를 얻음
      2. 이후 instantaneous frequency $\hat{f}_{k}(t)=k\hat{f}_{0}(t)$를 사용하여 각 frame의 corrected phase를 다음과 같이 결정함:
        (Eq. 8) $\hat{\varphi}_{k}(t_{l})=\int_{0}^{t_{l}}2\pi\hat{f}_{k}(u)\text{d}u+\sum_{i=0}^{l} \Delta\varphi_{k}^{i}$
    • Phase compensation은 아래 그림과 같이 표현됨
      1. 일반적으로 pitch detector로 얻어진 estimated frequency $\hat{f}_{k}(t)$는 true-value에서 deviate 되어있고, deviated phase $\tilde{\varphi}_{k}(t_{l+1})$을 가짐
        - 이때 phase compensation $\Delta\varphi_{k}^{l}$은 DNN에 의해 추정되어 deviated phase에 더해짐
      2. 그러면 corrected frame-wise phase는 instantaneous phase를 depict 하기 위해 cubically interpolate 되고, DNN의 estimated frame-wise amplitude로 interpolate 된 instantaneous phase와 함께 합성에 사용됨
        - 위 과정을 통해 frequency $\hat{f}_{k}$는 voiced/unvoiced segment에 approximate 하는 autonomous adjustment capability를 얻을 수 있음
      3. 결과적으로 해당 frequency와 phase는 QHM method의 quasi-harmonics와 유사하게 speech에 대한 better matching을 허용함
        - 따라서 phase compensation을 proportionally scaling 하여 desired phase를 얻을 수 있음

Phase Compensation

- Network Architecture

  • Network는 resynthesis를 위한 acoustic feature (amplitdue, phase compensation $\Delta\varphi_{k}^{l}$)를 생성하는 것을 목표로 함
    • 구조적으로 QHM-GAN은 HiFi-GAN을 기반으로 함
      1. 이때 HiFi-GAN과 달리 output은 frame-wise이므로 network은 data를 upsampling 할 필요가 없음
      2. 따라서 아래 그림과 같이 mel-spectrogram과 $\hat{f}_{0}$를 absorbing 하여 speech의 intrinsic composition을 excavating 하는 network를 구축함
        - 여기서 linguistic, speaker information을 포함한 mel-spectrogram은 spectral envelope hidden feature를 예측하는 데 사용되고 $\hat{f}_{0}$는 speech pitch control을 지원함 
      3. 특히 mel-spectrogram layer는 transposed convolution layer를 normal convolution layer로 대체한 다음, MRF로 connect 함
        - Activation은 leaky ReLU를 사용
    • 한편으로 prior $f_{0}$의 flow에 따라 pseudo-STFT를 생성할 수 있음:
      (Eq. 9) $S_{x}(t_{l},\omega)=\sum_{k=-K}^{K}e^{-\frac{\sigma^{2} [\omega-2\pi f_{k}(t_{l})]^{2}}{2}}$
      - $t_{l}$ : $l$-th frame의 center, $f_{k}(t_{l})=kf_{0}(t_{l})$
      - 해당 pseudo-spectrogram은 $f_{k}(t_{l})$ 주위에 several Gaussian function을 distribute 함
    • 여기서 several normal CNN (F-CNN)을 사용하여 $S_{x}(t_{l},\omega)$에서 frequency feature를 dig out 할 수 있음
      1. 추가적으로 mel-spectrogram과 $\hat{f}_{0}$ 간의 relationship을 향상하기 위해 각 MRF의 output을 해당 F-CNN의 output과 concatenate 한 다음, 해당 concatenated matrix를 다음 F-CNN의 input으로 사용함
        - Final F-CNN의 output latent feature는 final MRF output과 multiply 됨
      2. Network 끝 부분에서 2개의 separated normal CNN block은 multiplied result로부터 quasi-harmonics의 amplitude, phase compensation을 생성하는 데 사용됨
        - 여기서 hyperbolic tangent function은 output을 $[-1,1]$로 limit 하는 역할
      3. 최종적으로 frame-wise amplitude output은 interpolate 되고 frame-wise phase compensation은 pitch detector로 추정된 $\hat{f}_{0}$와 함께 frame-wise phase를 (Eq. 8)과 같이 correct 함
    • 해당 synthesis process와 DNN inference는 differentiable 하고 loss back-propagation이 가능함
      - 추가적으로 sparse modeling과 frequency correction을 포함
    • QHM-GAN은 wave를 upsampling 할 필요가 없으므로 same resolution으로 mel-spectrogram에서 feature를 생성함
      - 이를 통해 network에 대한 learning pressure를 크게 줄일 수 있고, MRF 수나 dilation을 줄이는 것과 같이 structure를 simplify 할 수 있음
      - 추가적으로 speech를 modifying 할 때 서로 다른 $\hat{f}_{0}$를 input 하여 modified amplitude와 original phase compensation을 얻을 수 있음

Generator Structure

- Training

  • QHM-GAN의 training process는 HiFi-GAN과 동일한 대신 UnivNet의 discriminator를 채택함
    • 해당 discriminator는 waveform의 multi-period와 spectrogram의 multi-resolution 측면에서 speech를 discriminate 함
    • 기존 multi-scale discriminator와 비교하여 multi-resolution discriminator는 frequency에 더 sensitive 하므로 training에 효과적임

4. Experiments

- Settings

  • Dataset : LJSpeech
  • Comparisons : WORLD, QHM, HiFi-GAN, DDSP

- Results

  • 전체적으로 QHM-GAN이 가장 우수한 성능을 보임

모델 성능 비교

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday