
Avocodo: Generative Adversarial Network for Artifact-Free VocoderGenerative Adversarial Network (GAN) 기반의 vocoder는 고품질의 음성 합성이 가능함- 이때 대부분의 speech component는 low-frequency band에 집중되어 있기 때문에 downsampling을 통한 multi-scale analysis를 활용BUT, multi-scale analysis는 unintended artifact를 발생시킬 가능성이 높음AvocodoArtifact 발생을 줄여 고품질의 합성이 가능한 GAN-based VocoderCollaborative multi-band discriminator와 sub-band discr..

DiffWave: A Versatile Diffusion Model for Audio Synthesis Conditional/Unconditional waveform generation을 위해 diffusion probabilistic model을 사용할 수 있음 DiffWave Non-autoregressive 하고 Markov chain을 통해 white noise signal을 waveform으로 변환하는 모델 - Data likelihood에 대한 variational bound를 최적화함으로써 학습됨 Mel-spectrogram에 따라 condition 된 neural vocoding, class-conditional generation, unconditional generation 작업에서 활..

iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform Mel-spectrogram vocoder는 3가지 inverse 작업을 해결할 수 있어야 함 - Original-scale magnitude spectrogram의 복구, Phase reconstruction, Frequency-to-time conversion 이를 위해 temporal upsampling layer를 활용하지만, mel-spectrogram 내의 time-frequency structure를 효과적으로 사용할 수 없음 iSTFTNet Upsampling layer를 통해 frequency dime..

PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Denoising diffusion probabilistic model은 data densitiy의 gradient를 추정하여 고품질의 sample을 생성할 수 있음 일반적으로 prior noise를 standard Gaussian 분포로 정의하지만, 해당하는 data 분포는 더 복잡할 수 있음 - Data와 prior 사이의 discrepancy로 인해 data sample에서 prior noise를 제거하는 것이 어려워짐 PriorGrad Conditional information 기반의 data statistics로부터 도출된 ad..

MISRNet: Lightweight Neural Vocoder Using Multi-Input Single Shared Residual BlocksHiFi-GAN의 Multi-Receptive field Fusion (MRF)은 branch 수에 따라 모델 size가 증가하는 단점이 있음MISRNetMRF의 대안으로 Multi-Input Single Shared Residual block을 도입하여 residual block을 mutiple에서 single 단위로 변형Residual block의 input convolution size를 줄임으로써 전체적인 모델을 경량화하고, tensor reshaping을 도입하여 처리 속도를 향상논문 (INTERSPEECH 2022) : Paper Link1. In..

DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP Generative Adversarial Network를 활용한 vocoder는 빠른 추론 속도와 효과적인 raw waveform 합성이 가능 하지만 unseen speaker에 대해서는 high-fidelity speech를 합성하기는 어려움 DSPGAN Digital Signal Processing에서의 time-frequency domain supervision을 도입하여 고품질 합성을 지원 Ground-truth와 예측 mel-spectrogram 사이의 mismatch를 해소하기 위해 DSP module에서 ..