FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder with Multiple STFTsU-Net encoder를 multiple Short-Time Fourier Transform (STFT)로 대체하여 sample 품질을 유지하면서 더 빠른 합성 속도를 얻을 수 있음FastFit각 encoder block을 STFT로 대체하고 decoder block의 temporal resolution과 동일한 parameter를 사용해 skip connection으로 연결이를 통해 high-fidelity의 sample을 유지하면서 parameter 수와 생성 속도를 절반으로 줄임논문 (INTERSP..
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Generative Adversarial Network는 빠른 합성을 보장하면서 고품질의 음성을 생성할 수 있음 SpecDiff-GAN Discriminator 이전에 Gaussian noise를 real/fake sample 모두에 inject 하는 forward diffusion process를 통해 training stability를 향상 Discriminator task를 더 어렵게 만드는 spectrally-shaped noise 분포를 도입 논문 (ICASSP 2024) : Paper Link 1. Introduction Audio 합성은 주어..
LightVoc: An Upsampling-Free GAN Vocoder based on Conformer and Inverse Short-Time Fourier Transform Generative Adversarial Network (GAN) 기반의 기존 vocoder는 mel-spectrogram으로부터 audio를 생성하기 위해 iterative upsampling을 필요로 함 - Iterative upsampling은 network 복잡도를 증가시키므로 vocoder의 추론 속도를 저하시키는 주요 원인 LightVoc Upsampling block을 Conformer block으로 대체하는 GAN-based vocoder 새로운 discriminator 조합을 도입하여 full-band에 걸쳐 ..
PeriodGrad: Towards Pitch-Controllable Neural Vocoder based on a Diffusion Probabilistic Model Diffuision-based vocoder는 고품질의 합성이 가능하고 간단한 time-domain loss로 학습할 수 있지만 pitch control이 어려움 PeriodGrad Explicit periodic signal을 auxiliary conditioning signal로써 Denoising Diffusion Probabilistic Model에 통합 Waveform의 periodic structure를 정확하게 capture 하여 pitch controllability를 향상 논문 (ICASSP 2024) : Paper Li..
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Denoising Diffusion Probabilistic Model (DDPM)과 Generative Adversarial Network (GAN)은 neural vocoder에서 자주 활용되고 있음 WaveFit Fixed-point iteration을 기반으로 하는 DDPM-like iterative framework에 GAN의 특성을 통합 Input signal을 iteratively denoise 하고 모든 iteration에서 intermediate output의 adversarial loss를 최소화 논문 (SLT 2023) : ..
FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder Lightweight, fast diffusion-based vocoder를 사용하여 사실적인 audio를 합성할 필요가 있음 FreGrad 복잡한 waveform을 sub-band wavelet으로 decompose 하는 discrete wavelet transform을 적용 Frequency awareness를 높이는 frequency-aware dilated convolution을 도입 합성 품질을 향상할 수 있는 추가적인 bag of tricks를 소개 논문 (ICASSP 2024) : Paper Link 1. Introduction Neural vocoder는 mel-spectrog..