티스토리 뷰
Paper/Vocoder
[Paper 리뷰] DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP
feVeRin 2024. 1. 23. 17:05반응형
DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP
- Generative Adversarial Network를 활용한 vocoder는 빠른 추론 속도와 효과적인 raw waveform 합성이 가능
- 하지만 unseen speaker에 대해서는 high-fidelity speech를 합성하기는 어려움
- DSPGAN
- Digital Signal Processing에서의 time-frequency domain supervision을 도입하여 고품질 합성을 지원
- Ground-truth와 예측 mel-spectrogram 사이의 mismatch를 해소하기 위해 DSP module에서 생성된 waveform으로 추출한 mel-spectrogram을 활용
- Sine excitation을 time-domain supervision으로 활용해 harmonic modelling을 개선하고 artifact를 제거
- 논문 (ICASSP 2023) : Paper Link
1. Introduction
- Text-to-Speech (TTS)는 주로 acoustic model과 neural vocoder로 구성된 two-stage architecture를 사용함
- Acoustic model은 text로부터 mel-spectrogram과 같은 intermediate representation을 생성
- Neural vocoder는 intermediate representation을 input으로 하여 waveform을 합성
- 실적용을 위해 speaker, speaking style, language와 같은 다양한 scenario에서 fine-tuning 없이 고품질의 음성을 유연하게 생성할 수 있는 universal vocoder가 필요
- BUT, unseen data에 대한 추론은 seen data에 비해 낮은 합성 품질로 이어지므로 unseen data에 대한 robustness가 중요함
- 추가적으로 예측된 intermeidate representation과 ground-truth 사이의 mismatch로 인해 artifact가 발생할 수도 있음
- Generative Adversarial Network (GAN)-based vocoder는 빠른 추론이 가능하고 합성 품질 또한 뛰어남
- BUT, GAN-based vocoder는 몇 가지 문제점이 존재
- 불안정한 병렬-생성으로 인해 음성의 periodic component에 대한 예측 error가 발생할 수 있음
- Prolonged sound에서 pitch jitter, discontinuous harmonics와 같은 artifact를 만드는 원인이 됨 - Over-smoothed spectrogram을 생성할 수 있음
- Metallic / Noisy sound를 유발함
- 불안정한 병렬-생성으로 인해 음성의 periodic component에 대한 예측 error가 발생할 수 있음
- GAN-based vocoder는 mel-spectrogram과 같은 intermeidate representation을 supervision으로 사용하는 생성 모델로 생각할 수 있음
-> 따라서 위의 문제를 해결하기 위해 supervision을 강화하는 방식을 도입할 수 있음 - 특히 data-driven 방식과 달리 Digital Signal Processing (DSP)는 human vocal에 대한 source-filter model을 기반으로 수학적으로 설계됨
- DSP를 활용하면 human vocal characteristic에 따라 음성의 periodic/aperiodic component를 modelling 할 수 있음
- 결과적으로 DSP vocoder는 unseen spectrogram에 대해 robustness를 가짐
- BUT, GAN-based vocoder는 몇 가지 문제점이 존재
-> 그래서 다양한 scenario에 적용할 수 있는 universal vocoder를 위해 DSP와 GAN-based vocoder를 결합한 DSPGAN을 제안
- DSPGAN
- GAN-based vocoder의 학습을 guide 하기 위해 DSP module을 도입
- Time-domain에서는 sine excitation을 supervision으로 사용
- Time-frequency domain에서는 DSP module에 의해 합성된 waveform으로부터 추출된 mel-spectrogram을 supervision으로 활용
< Overall of DSPGAN >
- GAN-based vocoder에 DSP를 통한 supervision을 도입
- DSP module을 통해 time-frequency domain에서의 supervision을 지원하고, sine excitation을 time-domain supervision으로 활용
- 결과적으로 다양한 scenario에서 robust 한 합성 품질을 달성하고, artifact 없는 음성을 생성 가능
2. Method
- A Typical GAN-based Vocoder
- 일반적인 GAN-based vocoder는 transposed convolution과 dilated convolution을 포함한 residual block, upsampling network를 통해 waveform을 생성함
- 이때 음성의 다양한 frequency-domain feature를 학습하기 위해 adversarial training을 활용
- 추가적으로 학습을 안정화하기 위해 feature matching loss, reconstruction loss와 같은 auxiliary loss를 사용 - 결과적으로 generator와 discriminator의 training objective는:
(Eq. 1) $\mathcal{L}_{G} = \mathbb{E}_{\hat{x}}[(D(\hat{x})-1)^{2}]+\mathcal{L}_{recon}(G)+\mathcal{L}_{fm}(G)$
(Eq. 2) $\mathcal{L}_{D} = \mathbb{E}_{x}[(D(x)-1)^{2}]+\mathbb{E}_{\hat{x}}[D(\hat{x})^{2}]$
- $\hat{x}$ : ground-truth와 생성된 sample
- $\mathcal{L}_{recon}$ : reconstruction loss, $\mathcal{L}_{fm}$ : feature matching loss
- 이때 음성의 다양한 frequency-domain feature를 학습하기 위해 adversarial training을 활용
- Improved Source-NNFilter Model
- 일반적인 source-filter model은 음성의 periodic/aperiodic component를 생성하기 위해 sine excitation과 noise를 source signal로 사용하고, source signal을 filtering 하기 위해 Linear Time-Varying (LTV) filter를 사용함
- DSPGAN은 neural network를 사용하여 LTV filter를 제어하기 위해 NHV model을 활용
- Complexity가 낮은 source-NNFilter model을 생성하기 위함 - Source-NNFilter model은 NNFilter estimator를 사용하여 input mel-spectrogram에서 impulse response로 complex cepstrum을 예측
- Source signal을 filtering하기 위해 complex cepstrum을 사용함으로써, source-NNFilter model은 다양한 harmonic component의 amplitude를 dynamic 하게 제어할 수 있음
- 결과적으로 일반적인 source-filter model보다 더 높은 품질의 음성 합성이 가능해짐 - 추가적으로 source-NNFilter model의 sine excitation은 additive synthesis를 통해 pitch로 변환될 수 있음
- 이를 위해 frame-level f0를 linearly interpolating 하여 sample-level f0 $f_{0}[n]$을 얻음
- $f_{0}[n]$에 해당하는 sine excitation $p_{K}[n]$의 generation process는:
(Eq. 3) $p_{K}[n] = \left\{\begin{matrix} \sum_{k=1}^{min(K,fs/2f_{0}[n])}sin(\phi_{k}[n]), & f_{0}[n]>0 \\ 0, & f_{0}[n]=0
\end{matrix}\right.$
- $K$ : additive synthesis에서 설정된 sine function 수 (논문에서는 $K=200$으로 설정)
- 이때 $\phi_{k}[n]$는 time step $n$에서 $k$-th harmonic phase이고, 아래 식으로부터 계산됨:
(Eq. 4) $\phi_{k}[n]= \phi_{k}[n-1]+2\pi k\frac{f_{0}[n]}{fs}$ - Sine excitation은 pitch가 필요하므로 pitch predictor를 개별적으로 사용
- Pitch predictor는 L2 loss로 최적화되고, 여러 개의 Conv1D layer를 통해 raw mel-spectrogram에서 pitch를 예측
- DSPGAN은 neural network를 사용하여 LTV filter를 제어하기 위해 NHV model을 활용
- Periodic/aperiodic component가 개별적으로 생성되기 때문에 source-NNFilter model은 periodic component와 관련된 voiced sound의 stochastic part로부터 aberrant point를 유도할 수 있음
- Aperiodic component에 대한 controllability를 향상하고 source-NNFilter model을 안정화하기 위해서, aperiodic과 periodic component 간의 dependence를 확립하는 것이 필요함
- 이를 위해서 weight predictor를 도입 - 결과적으로 source-NNFilter model은:
- Prenet과 weight predictor를 통해 각각 mel-spectrogram으로부터 hidden feature $h$와 weight $w$를 예측하고,
- $w$와 $1-w$를 periodic/aperiodic filter estimator의 input $sp, ap$로 사용하여
- Periodic component와 aperiodic component의 합이 frequency domain의 input mel-spectrogram과 match 되도록 함
- 이때 $sp, ap$의 계산은:
(Eq. 5) $\left \{ \begin{matrix} sp_{c,t} = w_{c,t}*h_{c,t} \\ ap_{c,t}=(1-w_{c,t})*h_{c,t} \end{matrix} \right.$
- $t, c$ : 각각 feature에 대한 frame, channel
- Aperiodic component에 대한 controllability를 향상하고 source-NNFilter model을 안정화하기 위해서, aperiodic과 periodic component 간의 dependence를 확립하는 것이 필요함
- Supervision to GAN-based Vocoder
- 앞선 source-NNFilter model을 기반으로 GAN-based vocoder의 학습을 guide 하는 supervision으로 사용
- Supervision in Time-Frequency Domain
- Universal vocoder는 다양한 unseen speaker, speaking style 등을 가지는 mel-spectrogram에 대해 robust 해야 함
- 이때 neural vocoder의 추론과 학습 사이에는 mismatch가 존재하기 때문에, artifact가 발생하고 합성 품질이 저하됨 - 따라서 mel-spectrogram mismatch를 완화하는 것이 중요함
- 이를 위해 DSPGAN은 pre-trained source-NNFilter model에서 합성된 음성의 mel-spectrogram으로 기존의 mel-spectrogram을 대체
- Universal vocoder는 다양한 unseen speaker, speaking style 등을 가지는 mel-spectrogram에 대해 robust 해야 함
- Supervision in Time-Domain
- Sine excitation의 사용은 GAN-based vocoder에서 periodic error를 회피할 수 있음
- 이때 mel-spectrogram mismatch로 인해 mechanical sound가 발생할 수 있음 - DSPGAN에서는 앞선 time-frequency domain supervision을 통해 mismatch 문제를 해결했으므로 time-domain sine excitation을 바로 적용할 수 있음
- Sine excitation supervision을 위해 UNet-like strategy를 활용
- Sine excitation은 downsampling network를 통해 다양한 scale로 downsampling 되고 각 upsampling network의 hidden feature에 concatenate 됨
- 결과적으로 harmonics modelling을 위한 upsampling network 학습은 sine excitation을 통해 supervise 되고, 이는 (Eq. 3)의 $p_{1}[n]$과 동일함
- 이때 pitch는 GAN-based vocoder에서 harmonic modelling의 accuracy를 향상할 수 있음
- Sine excitation의 사용은 GAN-based vocoder에서 periodic error를 회피할 수 있음
3. Experiments
- Settings
- Dataset
- Training set : Mandarin dataset, VCTK
- Test set (for unseen speaker) AISHELL-3, LibriTTS - Comparisons : Multi-band MelGAN, HiFi-GAN, NHV
- Results
- Copy Synthesis
- Multi-band MelGAN과 HiFi-GAN은 unseen speaker에 대해 합성 품질 저하가 발생함
- DSPGAN의 경우 source-NNFilter model supervision을 통해 unseen speaker에 대해서도 robust 한 합성 품질을 보임
- TTS
- TTS 환경에서도 마찬가지로 DSPGAN이 다양한 scenario에서 우수한 합성 품질을 보임
- 특히 NHV의 경우 전반적으로 낮은 성능을 보임
- NHV는 audio reconstruct 보다는 DSPGAN에서 supervision으로써 사용하는 것이 더 효과적임
- DSPGAN과 Multi-band MelGAN, NHV의 mel-spectrogram을 비교해 보면,
- (a), (b), (e) : DSPGAN은 sine excitation 도입을 통해 discontinuous harmonics, pitch jitter, harmonic error와 같은 artifact를 방지할 수 있음
- (c), (d) : DSPGAN은 source-NNFilter model에서 추출된 mel-spectrogram을 time-frequency domain supervision으로 사용하기 때문에 metallic, noisy sound를 방지할 수 있음
- (f) : DSPGAN은 high frequency에서 더 많은 aperiodic component를 가지므로 더 우수한 합성 품질을 보임
- Ablation Study
- DSPGAN에 대해 time-domain supervision, time-frequency domain supervision, weight predictor를 제거하여 합성 품질을 비교
- 결과적으로 해당 module들을 제거하면 DSPGAN의 합성 품질이 저하됨
반응형
'Paper > Vocoder' 카테고리의 다른 글
댓글