
PeriodGrad: Towards Pitch-Controllable Neural Vocoder based on a Diffusion Probabilistic Model Diffuision-based vocoder는 고품질의 합성이 가능하고 간단한 time-domain loss로 학습할 수 있지만 pitch control이 어려움 PeriodGrad Explicit periodic signal을 auxiliary conditioning signal로써 Denoising Diffusion Probabilistic Model에 통합 Waveform의 periodic structure를 정확하게 capture 하여 pitch controllability를 향상 논문 (ICASSP 2024) : Paper Li..

WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Denoising Diffusion Probabilistic Model (DDPM)과 Generative Adversarial Network (GAN)은 neural vocoder에서 자주 활용되고 있음 WaveFit Fixed-point iteration을 기반으로 하는 DDPM-like iterative framework에 GAN의 특성을 통합 Input signal을 iteratively denoise 하고 모든 iteration에서 intermediate output의 adversarial loss를 최소화 논문 (SLT 2023) : ..

FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder Lightweight, fast diffusion-based vocoder를 사용하여 사실적인 audio를 합성할 필요가 있음 FreGrad 복잡한 waveform을 sub-band wavelet으로 decompose 하는 discrete wavelet transform을 적용 Frequency awareness를 높이는 frequency-aware dilated convolution을 도입 합성 품질을 향상할 수 있는 추가적인 bag of tricks를 소개 논문 (ICASSP 2024) : Paper Link 1. Introduction Neural vocoder는 mel-spectrog..

MelGAN: Generative Adversarial Networks for Conditional Waveform SynthesisGenerative Adversarial Network (GAN)를 사용하여 안정적이고 고품질의 waveform을 합성할 수 있음MelGANMel-spectrogram inversion을 위해 GAN에 대한 architecture 수정과 간단한 training technique을 도입 더 적은 parameter 수와 빠른 추론 속도를 가지는 non-autoregressive 하고 fully convolutional 한 neural vocoder Conditional sequence 합성을 위한 general purpose discriminator 설계로 확장 가능논문 (Ne..

WaveFlow: A Compact Flow-based Model for Raw Audio Raw audio 합성을 위해 maximum likelihood를 활용하는 generative flow model을 구성할 수 있음 WaveFlow Dilated 2D convolution을 활용하여 1D waveform의 long-range structure를 capture 하고, expressive autoregressive function을 통해 local variation을 모델링 효율적인 합성을 위해 likelihood gap을 줄임 논문 (ICML 2020) : Paper Link 1. Introduction 기존의 autoregressive model은 raw audio에 대해 가장 높은 likelih..

WaveGrad: Estimating Gradients for Waveform Generation Score mathcing과 diffusion probabilistic model을 waveform generation에 활용할 수 있음 WaveGrad Data density의 gradient를 추정하는 waveform generation을 위한 conditional model Gaussian white noise에서 시작하여 mel-spectrogram에 따라 condition 된 gradient-based sampler를 활용 논문 (ICRL 2021) : Paper Link 1. Introduction Autorgressive 모델을 raw waveform 생성에서 활용할 수 있지만, sequenti..