
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Generative Adversarial Network는 빠른 합성을 보장하면서 고품질의 음성을 생성할 수 있음 SpecDiff-GAN Discriminator 이전에 Gaussian noise를 real/fake sample 모두에 inject 하는 forward diffusion process를 통해 training stability를 향상 Discriminator task를 더 어렵게 만드는 spectrally-shaped noise 분포를 도입 논문 (ICASSP 2024) : Paper Link 1. Introduction Audio 합성은 주어..

LightVoc: An Upsampling-Free GAN Vocoder based on Conformer and Inverse Short-Time Fourier Transform Generative Adversarial Network (GAN) 기반의 기존 vocoder는 mel-spectrogram으로부터 audio를 생성하기 위해 iterative upsampling을 필요로 함 - Iterative upsampling은 network 복잡도를 증가시키므로 vocoder의 추론 속도를 저하시키는 주요 원인 LightVoc Upsampling block을 Conformer block으로 대체하는 GAN-based vocoder 새로운 discriminator 조합을 도입하여 full-band에 걸쳐 ..

PeriodGrad: Towards Pitch-Controllable Neural Vocoder based on a Diffusion Probabilistic Model Diffuision-based vocoder는 고품질의 합성이 가능하고 간단한 time-domain loss로 학습할 수 있지만 pitch control이 어려움 PeriodGrad Explicit periodic signal을 auxiliary conditioning signal로써 Denoising Diffusion Probabilistic Model에 통합 Waveform의 periodic structure를 정확하게 capture 하여 pitch controllability를 향상 논문 (ICASSP 2024) : Paper Li..

WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Denoising Diffusion Probabilistic Model (DDPM)과 Generative Adversarial Network (GAN)은 neural vocoder에서 자주 활용되고 있음 WaveFit Fixed-point iteration을 기반으로 하는 DDPM-like iterative framework에 GAN의 특성을 통합 Input signal을 iteratively denoise 하고 모든 iteration에서 intermediate output의 adversarial loss를 최소화 논문 (SLT 2023) : ..

FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder Lightweight, fast diffusion-based vocoder를 사용하여 사실적인 audio를 합성할 필요가 있음 FreGrad 복잡한 waveform을 sub-band wavelet으로 decompose 하는 discrete wavelet transform을 적용 Frequency awareness를 높이는 frequency-aware dilated convolution을 도입 합성 품질을 향상할 수 있는 추가적인 bag of tricks를 소개 논문 (ICASSP 2024) : Paper Link 1. Introduction Neural vocoder는 mel-spectrog..

MelGAN: Generative Adversarial Networks for Conditional Waveform SynthesisGenerative Adversarial Network (GAN)를 사용하여 안정적이고 고품질의 waveform을 합성할 수 있음MelGANMel-spectrogram inversion을 위해 GAN에 대한 architecture 수정과 간단한 training technique을 도입 더 적은 parameter 수와 빠른 추론 속도를 가지는 non-autoregressive 하고 fully convolutional 한 neural vocoder Conditional sequence 합성을 위한 general purpose discriminator 설계로 확장 가능논문 (Ne..