
FIRNet: Fundamental Frequency Controllable Fast Neural Vocoder with Trainable Finite Impulse Response FilterFundamental frequency를 control 할 수 있는 neural vocoder는 우수한 합성 품질을 보이지만, 여전히 signal processing에 기반한 기존 vocoder들보다 느린 추론 속도를 가짐FIRNetTrainable time-variant Finite Impulse Response (FIR) filter를 갖춘 source-filter model을 활용Neural network를 통해 multiple FIR coefficient를 예측하고, mixed excitation signa..

Vocos: Closing the Gap Between Time-domain and Fourier-based Neural Vocoders for High-Quality Audio Synthesis기존의 neural vocoder는 time-domain에서 동작하는 Generative Adversarial Network을 활용함BUT, 해당 방식은 time-frequency representation이 제공하는 inductive bias를 무시하므로 redundant, computationally-intense 한 upsampling operation이 요구됨Vocos더 빠른 계산과 human perception과의 align의 이점을 활용할 수 있는 Fourier-based time-frequency r..

GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion ModelDiffusion model은 diffusion process로 인한 비효율성이 존재하고 unseen speaker에 대한 고품질 합성이 어려움GLA-GradConditioning error를 최소화하면서 diffusion process의 효율성을 향상하기 위해 diffusion process의 각 step에 Griffin-Lim algorithm을 도입이를 통해 추가적인 training이나 fine-tuning 없이 already-trained waveform generation model에 직접 적용 가능논문 (ICASSP 2024) : Paper Link1. Introductio..

VocGAN: A High-Fidelity Real-Time Vocoder with a Hierarchically-nested Adversarial NetworkGAN-based vocoder는 real-time 합성이 가능하지만 input mel-spectrogram의 acoustic characteristic과 incosistent 한 waveform을 생성하는 경우가 많음VocGANGAN-based vocoder의 합성 속도를 유지하면서 output waveform의 품질과 consistency를 개선Multi-scale waveform generator와 hierarchically-nested discriminator를 활용해 multiple level의 acoustic property를 학습Jo..

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive NormalizationLightweight neural vocoder는 여전히 perceptual quailty 측면에서 열등한 성능을 보임StyleMelGAN낮은 complexity를 가지면서 high-fidelity의 음성을 합성할 수 있는 lightweight neural vocoderTemporal Adaptive Normalization을 사용하여 target speech의 acoustic feature로 low-dimensional noise vector를 style 함Random Window Discriminator는 multi-scale sp..

Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with Very Low Computational ComplexityGAN-based vocoder는 고품질 waveform을 합성하는데 자주 사용됨BUT, 대부분의 architecture는 sample-wise로 waveform을 생성하므로 상당한 GFLOPS가 필요함- 결과적으로 accelerator나 parallel computer 없이 일반적인 CPU에서 사용하기 어려움Framewise WaveGANFramewise로 time domain signal을 생성하기 위해 recurrent, fully-connected network를 활용하는 GAN-based vocoder결과적으로 c..