티스토리 뷰
Paper/Vocoder
[Paper 리뷰] UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation
feVeRin 2024. 3. 22. 10:12반응형
UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation
- Full-band spectral feature를 사용하면 vocoder에 많은 acoustic information을 제공할 수 있음
- BUT, full-band mel-spectrogram 사용 시 over-smoothing 문제가 발생할 수 있음 - UnivNet
- Full-band over-smoothing 문제를 해결하는 고품질 neural vocoder
- Multiple linear spectrogram magnitude를 사용하는 multi-resolution spectrogram discriminator를 도입
- 논문 (INTERSPEECH 2021) : Paper Link
1. Introduction
- Generative Adversarial Network (GAN)을 neural vocoder에 적용하면 빠르고, high-fidelity의 음성을 얻을 수 있음
- 일반적으로 neural vocoder는 mel-spectrogram을 사용하여 waveform을 생성함
- 이때 high-frequency band의 acoustic information이 모델에 제공되지 않음 - 한편으로 sampling rate의 절반에 해당하는 spectral feature를 input으로 사용하여 full-band acoustic information을 제공할 수 있음
- BUT, full-band mel-spectrogram을 사용하면 non-sharp spectrogram으로 인해 over-smoothing이 발생함 - 이때 GAN의 discriminator를 통해 해당 문제를 해결할 수 있음
- Discriminator가 temporal feature 뿐만 아니라 multiple resolution spectral feature를 input으로 사용하도록 하면 binary classification 성능을 향상할 수 있음
- 일반적으로 neural vocoder는 mel-spectrogram을 사용하여 waveform을 생성함
-> 그래서 full-band oversmoothing 문제를 해결하기 위해 multi-resolution spectrogram discriminator를 사용하는 UnivNet을 제안
- UnivNet
- 다양한 parameter set을 사용하여 계산된 multiple linear spectrogram magnitude를 사용하는 Multi-Resolution Spectrogram Discriminator (MRSD)를 도입
- Full-band mel-spectrogram을 input으로 사용하여 MRSD를 통해 high-resolution signal을 생성
- 추가적으로 waveform의 여러 scale에 대한 Multi-Period Waveform Discriminator (MPWD)와 결합하여 spectral, temporal domain 모두를 모델링하도록 함
< Overall of UnivNet >
- Full-band over-smoothing 문제를 해결하는 고품질, real-time neural vocoder
- Multiple linear spectrogram magnitude를 사용하는 MRSD를 도입
- 결과적으로 기존 GAN-based vocoder 보다 우수한 합성 품질과 추론 속도를 달성
2. Method
- Generator
- UnivNet generator
는 MelGAN의 아이디어를 활용함GG - Noise sequence
는 input으로 사용되고 log mel-spectrogramzz 는 condition으로 사용됨cc
- 의 length는zz 와 동일하고, outputcc 의 length는 transposed convolution을 통해 target waveformˆx^x 와 동일해짐xx - Condition의 local information을 효율적으로 capture하기 위해, Location-Variable Convolution (LVC)를 추가함
- LVC layer의 kernel은 log mel-spectrogram을 input으로 사용하는 kernel predictor를 통해 예측됨
- Kernel predictor는 residual stack에 연결되고, 하나의 kernel predictor는 하나의 residual stack에 있는 모든 LVC layer의 kernel을 동시에 예측함 - Multi-speaker에서의 generality를 향상하기 위해, Gated Activation Unit (GAU)가 각 residual connection에 추가됨
- Noise sequence
- Discriminator
- Discriminator
는 real/generated signal에서 계산된 multiple spectrogram과 reshaped waveform을 활용함DD - 이를 위한 Multi-Resolution Spectrogram Discriminator (MRSD)는
- 각
-th sub-discriminator에 대한 input을 위해,mm 개의 real/generated linear spectrogram magnitudeMM 는,{sm=|FTm(x)|,ˆsm=|FTm(ˆx)|}Mm=1{sm=|FTm(x)|,^sm=|FTm(^x)|}Mm=1
- STFT parameter setMM 을 사용하여 동일한 waveform에서 계산됨{FTm(⋅)}Mm=1{FTm(⋅)}Mm=1
- 각각은 Fourier transform의 point 수, frame shift interval, window length를 포함 - MRSD는 다양한 temporal, spectral resolution을 가지는 multiple spectrogram을 사용하므로, full-band에 걸쳐 high-resolution signal을 생성할 수 있음
- 각
- 구조적으로는 MelGAN의 Multi-Scale Wavefrom Discriminator (MSWD)를 기반으로 strided 2D convolution과 Leaky ReLU로 구성됨
- Temporal doamin에서 detailed adversarial 모델링을 위해 HiFi-GAN의 Multi-Period Waveform Discriminator (MPWD)를 추가함
- 이때 waveform의 periodic component는 prime number set의 interval로 추출되어 각 sub-discriminator에 대한 input으로 사용됨
- 이를 위한 Multi-Resolution Spectrogram Discriminator (MRSD)는

- Training Loss
- Multi-resolution STFT loss는 학습을 위한 auxiliary loss로써, 다양한 STFT parameter set을 사용하여 계산된 multiple spectrogram loss의 합에 해당함
- Spectral convergence loss
와 log STFT magnitude lossLsc 로 구성된 lossLmag 는:Laux
(Eq. 1)Lsc(s,ˆs)=||s−ˆs||F||s||F,Lmag(s,ˆs)=1S||logs−logˆs||1
(Eq. 2)Laux(x,ˆx)=1M∑Mm=1Ex,ˆx[Lsc(sm,ˆsm)+Lmag(sm,ˆsm)]
- : 각각 Frobenius,||⋅||F,||⋅||1 norm,L1 : spectrogram의 element 수S
- -thm 는Lsc,Lmag -th MRSD sub-discriminator에 사용된m 과sm 을 reuse 함ˆsm
- 각 loss의 개수는 으로, MRSD sub-discriminator의 개수와 동일M - UnivNet은 least squares GAN의 objective를 사용하고, 이때 overall objective는:
(Eq. 3)LG=λLaux(x,G(z,c))+1K∑Kk=1Ez,c[(Dk(G(z,c))−1)2]
(Eq. 4)LD=1K∑Kk=1(Ex[(Dk(x)−1)2]+Ez,c[Dk(G(z,c))2])
- : MRSD, MPWD의Dk -th sub-discriminator,k : 전체 sub-discriminator 수,K : balance parameterλ
- Spectral convergence loss

3. Experiments
- Settings
- Results
- Ablation Study
- 아래 표에서 G1= LVC, G2=GAU, D1=MRSD, D2=MPWD, D3=MSWD
- 각 component들은 모두 UnivNet의 성능 향상에 크게 기여함

- 특히 MRSD를 제거하는 경우, high-frequency band에서 over-smoothing 문제가 발생함
- 결과적으로 MOS 저하로 이어짐

- Comparison with Existing Models
- 전체적인 합성 품질 측면에서도 UnivNet이 가장 우수한 것으로 나타남
- 합성 효율성 측면에서 UnivNet은 더 적은 수의 parameter로 real-time보다 200배 빠른 합성 속도를 보임

반응형