티스토리 뷰

반응형

QGAN: Low Footprint Quaternion Neural Vocoder for Speech Synthesis


  • Neural vocoder는 space/time complexity 측면에서 resource-constraint가 존재함
  • QGAN
    • Quaternion convolution과 multi-scale/period discriminator를 사용하여 structual compression을 달성
    • Stability를 보장하기 위해 quaternion domain에서 weight-normalization을 도입
  • 논문 (INTERSPEECH 2024) : Paper Link

1. Introduction

  • Neural vocoder는 intermediate speech representation을 translating 하고 natural-sounding speech로 변환함
    • 이를 위해 autoregressive model, non-autoregressive Flow, Diffusion, Variational AutoEncoder (VAE), Generative Adversarial Network (GAN) 등의 방법을 사용할 수 있음
      - BUT, 대부분의 neural vocoder는 high computational/storage demand로 인해 resource-constraint setting에서 활용하기 어려움
    • 따라서 low-footprint vocoder는 Knowledge Distillation, Pruning, Quantization, Low-Rank Decomposition 등의 방법을 통해 compress 함
      - BUT, 해당 방식은 reasonable performance를 보장하기 위해 intricate engineering 과정이 필요하고 상당한 training cost가 요구됨

-> 그래서 audio quality를 유지하면서 compact design을 지원할 수 있는 low-footprint neural vocoder인 QGAN을 제안

 

  • QGAN 
    • GAN에 대한 sturctural alteration을 통해 lossless one-to-one mapping을 보장하여 low-rank-based lossy compression이나 complex re-training/distillation pipeline에 대한 의존성을 제거 
    • Weight-normalization의 quaternion version을 도입하고 quaternion spectral normalization을 적용
      - Low parameter regime은 training stability를 위해 normalization/regularization을 요구하기 때문
    • 추가적으로 real to hypercomplex quaternion ($\mathbb{R}\rightarrow \mathbb{H}$) adaptor sub-network를 사용하여 real input/output을 통한 training/synthesis를 지원

< Overall of QGAN >

  • Quaternion convolution neural network에 기반한 low-footprint neural vocoder
  • 결과적으로 기존보다 적은 parameter 수와 뛰어난 합성 성능을 달성

2. Method

  • QGAN은 HiFi-GAN framework를 기반으로 구축됨
    • 먼저 HiFi-GAN은 multi-receptive field fusion이 적용된 generator와 multi-scale/multi-period discriminator를 가짐
      - 여기서 quaternion algebra가 적용된 convolution과 transposed convolution을 도입하면 structural compression을 달성할 수 있고 parameter 수를 4배 절감할 수 있음
    • 특히 quaternion model은 real part와 3개의 imaginary part로 구성된 hypercomplex number의 quaternion data/filter로 동작함
      1. 이때 Quaternion Convolutional Neural Network (QCNN)은 spatial transformation과 함께 input audio feature의 various facets를 embed 하여 해당 feature 간의 complex relation ship을 학습함
      2. 구조적으로 QCNN은 standard dot product 대신 Hamilton product를 사용하므로 channel 간에 share 되는 parameter 수가 적어 다양한 orientation, scale, translation에 대한 generalization을 제공함

Overall of QGAN

- QGenerator

  • Generator는 fully QCNN으로 구성되고 4-channel log mel-spectrogram-based acoustic quaternion이 input으로 사용됨 
    • 이후 해당 input은 quaternion transposed convolution을 통해 upsampling 되어 resulting sequence를 raw waveform의 temporal resolution과 aligning 함
    • 여기서 각 quaternion transposed convolution을 적용할 때마다 Quaternion Multi-Receptive Field Fusion (QMRF) module이 사용됨 
      1. 해당 module은 quaternion domain에 tailor 되어 다양한 length의 pattern을 concurrent 하게 capture 하고 network의 representational capacity를 향상함
      2. 결과적으로 QMRF module은 multiple residual block output을 aggregate 하고, 각각은 서로 다른 kernel size, dilation rate를 통해 다양한 receptive field를 simulate 함
    • QCNN과 QMRF module을 통해 generator는 synthesis efficiency와 sample quality 간의 balance를 유지할 수 있음 
    • 추가적으로 latent quaternion representation을 raw waveform에 directly mapping 하는 대신, 논문은 adaptor module을 채택함 
      - 해당 sub-network는 incoming quaternion channel로 adjust 된 conventional convolution layer로 구성되고, quaternion output을 real-valued waveform으로 변환하는 역할을 수행함

- QDiscriminator

  • QGAN은 audio의 periodic nature와 extended correlation을 학습할 수 있는 dual-discriminator strategy를 활용함
    • Audio signal의 various period를 analyze 하는 Quaternion Multi-Period Discriminator (QMPD)
    • MelGAN과 같이 다양한 scale의 audio를 assess 하는 Quaternion Multi-Scale Discriminator (QMSD)를 사용
  • Quaternion Multi-Period Discriminator (QMPD)
    • QMPD는 audio signal에 존재하는 distinct periodicity에 tailor 된 5개의 sub-quaternion discriminator를 사용함
      - Layer의 QCNN filter는 각 channel과 individually interact 하므로 quaternion discriminator는 short-term phonetic transition에서 long-term prosody feature까지의 wide correlation을 capture 할 수 있음
    • 이때 real-valued audio data와 quaternion domain 간의 transition을 지원하기 위해 각 sub-discriminator의 before/after에 real-to-quaternion/quaternion-to-real adaptor layer를 적용함 
      1. QMPD 내의 각 sub-quaternion discriminator는 strided quaternion convolution layer로 구성되고, leaky ReLU split activation function을 사용
      2. 추가적으로 stability와 robustness를 향상하기 위해, quaternion weight-normalization도 적용
  • Quaternion Multi-Scale Discriminator (QMSD)
    • QMSD는 multiple scale에서 audio sequence를 consecutively analyzing 하여 QMPD를 보완함
    • 구조적으로 QMSD는 original, $\times 2$ average-pooled, $\times 4$ average-pooled의 scale에서 동작하는 3개의 sub-discriminator로 구성됨 
      1. 이때 QMSD의 각 layer는 strided quaternion convolution과 leaky ReLU activation을 사용함
      2. 추가적으로 각 sub-discriminator의 before/after에 adpator module을 도입하여 seamless domain transition을 지원함
    • 한편으로 기존 MelGAN의 MSD에서는 group convolution이 사용되지만, QMSD에서는 사용되지 않음
      - Quaternion convolution은 input channel을 하나의 real channel과 3개의 imaginary channel group으로 divide 하므로 group/depthwise separable convolution의 combination으로 볼 수 있기 때문
    • 추가적으로 QMSD 각 layer에는 quaternion weight-normalization이 적용되고, first sub-discriminator에는 quaternion spectral-normalization을 도입하여 smoothed waveform을 보장함 
  • Loss Function
    • QMSD/QMPD의 $K$ sub-discriminator로 구성된 QGAN의 final objective는:
      (Eq. 1) $\mathcal{L}_{G}=\sum_{k=1}^{K}[\mathcal{L}_{Adv}(G_{Q};D_{Q_{k}})+\lambda_{1} \mathcal{L}_{FM}(G_{Q};D_{Q_{k}})+\lambda_{2}\mathcal{L}_{Adv}(D_{Q_{k}};G_{Q})]+\lambda_{3}\mathcal{L}_{Mel}(G_{Q})$
      (Eq. 2) $\mathcal{L}_{Adv}(D_{Q};G_{Q})=\mathbb{E}_{(x,s)}[(D_{Q}(x)-1)^{2}+ (D_{Q}(G(s)))^{2} ]$
      (Eq. 3) $\mathcal{L}_{Adv}(G_{Q};D_{Q})=\mathbb{E}_{s}[(D_{Q}(G_{Q}(s))-1)^{2}]$
      (Eq. 4) $\mathcal{L}_{FM}(G_{Q};D_{Q})=\mathbb{E}_{(x,s)}\left[\sum_{i=1}^{L} \frac{1}{N_{i}}|| D_{Q}^{i}(x)-D_{Q}^{i}(G_{Q}(s)) ||_{1}\right]$
      (Eq. 5) $\mathcal{L}_{Mel}(G_{Q})=\mathbb{E}_{(x,s)}\left[|| \phi(x)-\phi(G_{Q}(s))||_{1}\right]$
      - $\phi$ : waveform을 mel-spectrogram으로 변환하는 function
      - $L$ : QDiscriminator의 total layer 수, $N_{i}$ : $i$-th layer의 feature 수, $\lambda_{i}$ : scaling constant
    • 여기서 $\mathcal{L}_{Adv}$는 LS-GAN의 least square adversarial loss를 따름
      - 즉, QDiscriminator는 actual sample을 $1$로, generated sample을 $0$으로 distinguish 하고 QGenerator는 output quality를 개선해 real sample과 indistinguishable 하게 만듦
    • $\mathcal{L}_{Mel}$은 perception-based Mel loss로써 generated audio의 frequency characteristic이 actual audio와 match 되도록 함
    • Feature matching loss $\mathcal{L}_{FM}$은 real sample에서 추출된 feature와 discriminator의 intermediate layer에서 추출된 feature를 비교하여 generator를 개선함
      - 이때 latent feature를 compare 하기 위해 $\ell_{1}$ norm을 사용
    • 결과적으로 QGAN은 QGenerator가 real data와 유사한 intermediate (quaternion-to-real) representation을 가진 sample을 생성하고, 생성된 해당 output을 개선하는 것을 목표로 함
      - 추가적으로 inter-channel correlation을 capture 하여 high-quality result를 지원하고 richer gradient signal을 제공해 training stability를 향상함

3. Experiments

- Settings

- Results

  • 전체적으로 QGAN은 HiFi-GAN 보다 뛰어난 성능을 보임

Baseline 과의 비교

  • 기존 neural vocoder들과 비교하여도 QGAN이 가장 우수함

모델 성능 비교

  • Loss Landscape
    • Loss 측면에서 HiFi-GAN은 wider basin을 가지지만 QGAN은 minima 근처에 wider valley를 가짐

Loss Landscape

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Total
Today
Yesterday