티스토리 뷰
Paper/Vocoder
[Paper 리뷰] QGAN: Low Footprint Quaternion Neural Vocoder for Speech Synthesis
feVeRin 2024. 11. 3. 09:05반응형
QGAN: Low Footprint Quaternion Neural Vocoder for Speech Synthesis
- Neural vocoder는 space/time complexity 측면에서 resource-constraint가 존재함
- QGAN
- Quaternion convolution과 multi-scale/period discriminator를 사용하여 structual compression을 달성
- Stability를 보장하기 위해 quaternion domain에서 weight-normalization을 도입
- 논문 (INTERSPEECH 2024) : Paper Link
1. Introduction
- Neural vocoder는 intermediate speech representation을 translating 하고 natural-sounding speech로 변환함
- 이를 위해 autoregressive model, non-autoregressive Flow, Diffusion, Variational AutoEncoder (VAE), Generative Adversarial Network (GAN) 등의 방법을 사용할 수 있음
- BUT, 대부분의 neural vocoder는 high computational/storage demand로 인해 resource-constraint setting에서 활용하기 어려움 - 따라서 low-footprint vocoder는 Knowledge Distillation, Pruning, Quantization, Low-Rank Decomposition 등의 방법을 통해 compress 함
- BUT, 해당 방식은 reasonable performance를 보장하기 위해 intricate engineering 과정이 필요하고 상당한 training cost가 요구됨
- 이를 위해 autoregressive model, non-autoregressive Flow, Diffusion, Variational AutoEncoder (VAE), Generative Adversarial Network (GAN) 등의 방법을 사용할 수 있음
-> 그래서 audio quality를 유지하면서 compact design을 지원할 수 있는 low-footprint neural vocoder인 QGAN을 제안
- QGAN
- GAN에 대한 sturctural alteration을 통해 lossless one-to-one mapping을 보장하여 low-rank-based lossy compression이나 complex re-training/distillation pipeline에 대한 의존성을 제거
- Weight-normalization의 quaternion version을 도입하고 quaternion spectral normalization을 적용
- Low parameter regime은 training stability를 위해 normalization/regularization을 요구하기 때문 - 추가적으로 real to hypercomplex quaternion ($\mathbb{R}\rightarrow \mathbb{H}$) adaptor sub-network를 사용하여 real input/output을 통한 training/synthesis를 지원
< Overall of QGAN >
- Quaternion convolution neural network에 기반한 low-footprint neural vocoder
- 결과적으로 기존보다 적은 parameter 수와 뛰어난 합성 성능을 달성
2. Method
- QGAN은 HiFi-GAN framework를 기반으로 구축됨
- 먼저 HiFi-GAN은 multi-receptive field fusion이 적용된 generator와 multi-scale/multi-period discriminator를 가짐
- 여기서 quaternion algebra가 적용된 convolution과 transposed convolution을 도입하면 structural compression을 달성할 수 있고 parameter 수를 4배 절감할 수 있음 - 특히 quaternion model은 real part와 3개의 imaginary part로 구성된 hypercomplex number의 quaternion data/filter로 동작함
- 이때 Quaternion Convolutional Neural Network (QCNN)은 spatial transformation과 함께 input audio feature의 various facets를 embed 하여 해당 feature 간의 complex relation ship을 학습함
- 구조적으로 QCNN은 standard dot product 대신 Hamilton product를 사용하므로 channel 간에 share 되는 parameter 수가 적어 다양한 orientation, scale, translation에 대한 generalization을 제공함
- 먼저 HiFi-GAN은 multi-receptive field fusion이 적용된 generator와 multi-scale/multi-period discriminator를 가짐
- QGenerator
- Generator는 fully QCNN으로 구성되고 4-channel log mel-spectrogram-based acoustic quaternion이 input으로 사용됨
- 이후 해당 input은 quaternion transposed convolution을 통해 upsampling 되어 resulting sequence를 raw waveform의 temporal resolution과 aligning 함
- 여기서 각 quaternion transposed convolution을 적용할 때마다 Quaternion Multi-Receptive Field Fusion (QMRF) module이 사용됨
- 해당 module은 quaternion domain에 tailor 되어 다양한 length의 pattern을 concurrent 하게 capture 하고 network의 representational capacity를 향상함
- 결과적으로 QMRF module은 multiple residual block output을 aggregate 하고, 각각은 서로 다른 kernel size, dilation rate를 통해 다양한 receptive field를 simulate 함
- QCNN과 QMRF module을 통해 generator는 synthesis efficiency와 sample quality 간의 balance를 유지할 수 있음
- 추가적으로 latent quaternion representation을 raw waveform에 directly mapping 하는 대신, 논문은 adaptor module을 채택함
- 해당 sub-network는 incoming quaternion channel로 adjust 된 conventional convolution layer로 구성되고, quaternion output을 real-valued waveform으로 변환하는 역할을 수행함
- QDiscriminator
- QGAN은 audio의 periodic nature와 extended correlation을 학습할 수 있는 dual-discriminator strategy를 활용함
- Audio signal의 various period를 analyze 하는 Quaternion Multi-Period Discriminator (QMPD)와
- MelGAN과 같이 다양한 scale의 audio를 assess 하는 Quaternion Multi-Scale Discriminator (QMSD)를 사용
- Quaternion Multi-Period Discriminator (QMPD)
- QMPD는 audio signal에 존재하는 distinct periodicity에 tailor 된 5개의 sub-quaternion discriminator를 사용함
- Layer의 QCNN filter는 각 channel과 individually interact 하므로 quaternion discriminator는 short-term phonetic transition에서 long-term prosody feature까지의 wide correlation을 capture 할 수 있음 - 이때 real-valued audio data와 quaternion domain 간의 transition을 지원하기 위해 각 sub-discriminator의 before/after에 real-to-quaternion/quaternion-to-real adaptor layer를 적용함
- QMPD 내의 각 sub-quaternion discriminator는 strided quaternion convolution layer로 구성되고, leaky ReLU split activation function을 사용
- 추가적으로 stability와 robustness를 향상하기 위해, quaternion weight-normalization도 적용
- QMPD는 audio signal에 존재하는 distinct periodicity에 tailor 된 5개의 sub-quaternion discriminator를 사용함
- Quaternion Multi-Scale Discriminator (QMSD)
- QMSD는 multiple scale에서 audio sequence를 consecutively analyzing 하여 QMPD를 보완함
- 구조적으로 QMSD는 original, $\times 2$ average-pooled, $\times 4$ average-pooled의 scale에서 동작하는 3개의 sub-discriminator로 구성됨
- 이때 QMSD의 각 layer는 strided quaternion convolution과 leaky ReLU activation을 사용함
- 추가적으로 각 sub-discriminator의 before/after에 adpator module을 도입하여 seamless domain transition을 지원함
- 한편으로 기존 MelGAN의 MSD에서는 group convolution이 사용되지만, QMSD에서는 사용되지 않음
- Quaternion convolution은 input channel을 하나의 real channel과 3개의 imaginary channel group으로 divide 하므로 group/depthwise separable convolution의 combination으로 볼 수 있기 때문 - 추가적으로 QMSD 각 layer에는 quaternion weight-normalization이 적용되고, first sub-discriminator에는 quaternion spectral-normalization을 도입하여 smoothed waveform을 보장함
- QMSD는 multiple scale에서 audio sequence를 consecutively analyzing 하여 QMPD를 보완함
- Loss Function
- QMSD/QMPD의 $K$ sub-discriminator로 구성된 QGAN의 final objective는:
(Eq. 1) $\mathcal{L}_{G}=\sum_{k=1}^{K}[\mathcal{L}_{Adv}(G_{Q};D_{Q_{k}})+\lambda_{1} \mathcal{L}_{FM}(G_{Q};D_{Q_{k}})+\lambda_{2}\mathcal{L}_{Adv}(D_{Q_{k}};G_{Q})]+\lambda_{3}\mathcal{L}_{Mel}(G_{Q})$
(Eq. 2) $\mathcal{L}_{Adv}(D_{Q};G_{Q})=\mathbb{E}_{(x,s)}[(D_{Q}(x)-1)^{2}+ (D_{Q}(G(s)))^{2} ]$
(Eq. 3) $\mathcal{L}_{Adv}(G_{Q};D_{Q})=\mathbb{E}_{s}[(D_{Q}(G_{Q}(s))-1)^{2}]$
(Eq. 4) $\mathcal{L}_{FM}(G_{Q};D_{Q})=\mathbb{E}_{(x,s)}\left[\sum_{i=1}^{L} \frac{1}{N_{i}}|| D_{Q}^{i}(x)-D_{Q}^{i}(G_{Q}(s)) ||_{1}\right]$
(Eq. 5) $\mathcal{L}_{Mel}(G_{Q})=\mathbb{E}_{(x,s)}\left[|| \phi(x)-\phi(G_{Q}(s))||_{1}\right]$
- $\phi$ : waveform을 mel-spectrogram으로 변환하는 function
- $L$ : QDiscriminator의 total layer 수, $N_{i}$ : $i$-th layer의 feature 수, $\lambda_{i}$ : scaling constant - 여기서 $\mathcal{L}_{Adv}$는 LS-GAN의 least square adversarial loss를 따름
- 즉, QDiscriminator는 actual sample을 $1$로, generated sample을 $0$으로 distinguish 하고 QGenerator는 output quality를 개선해 real sample과 indistinguishable 하게 만듦 - $\mathcal{L}_{Mel}$은 perception-based Mel loss로써 generated audio의 frequency characteristic이 actual audio와 match 되도록 함
- Feature matching loss $\mathcal{L}_{FM}$은 real sample에서 추출된 feature와 discriminator의 intermediate layer에서 추출된 feature를 비교하여 generator를 개선함
- 이때 latent feature를 compare 하기 위해 $\ell_{1}$ norm을 사용 - 결과적으로 QGAN은 QGenerator가 real data와 유사한 intermediate (quaternion-to-real) representation을 가진 sample을 생성하고, 생성된 해당 output을 개선하는 것을 목표로 함
- 추가적으로 inter-channel correlation을 capture 하여 high-quality result를 지원하고 richer gradient signal을 제공해 training stability를 향상함
- QMSD/QMPD의 $K$ sub-discriminator로 구성된 QGAN의 final objective는:
3. Experiments
- Settings
- Dataset : LJSpeech, OpenSLR
- Comparisons : HiFi-GAN, UnivNet, MelGAN, Parallel WaveGAN
- Results
- 전체적으로 QGAN은 HiFi-GAN 보다 뛰어난 성능을 보임
- 기존 neural vocoder들과 비교하여도 QGAN이 가장 우수함
- Loss Landscape
- Loss 측면에서 HiFi-GAN은 wider basin을 가지지만 QGAN은 minima 근처에 wider valley를 가짐
반응형
'Paper > Vocoder' 카테고리의 다른 글
댓글