JenGAN: Stacked Shifted Filters in GAN-based Speech SynthesisNon-autoregressive GAN-based vocoder는 빠른 추론 속도와 우수한 품질을 지원하지만, audible artifact가 발생하는 경향이 있음JenGANShift-equivariant property를 보장하기 위해 shifted low-pass filter를 stack 하는 training strategy추론 시에 사용되는 model structure를 유지하면서 aliasing을 방지하고 artifact를 줄임논문 (INTERSPEECH 2024) : Paper Link1. IntroductionNeural vocoder는 mel-spectrogram과 같은 audio ..
FreeV: Free Lunch for Vocoders through Pseudo Inversed Mel FilterFrequent-domain GAN vocoder는 우수한 합성 품질을 달성했지만, 상당한 parameter size로 인해 memory burden이 존재함FreeVPseudo-Inverse를 통해 amplitude spectrum을 roughly initialization 하여 vocoder의 parameter demand를 크게 줄임Stream-lined amplitude prediction branch를 통해 추가적인 추론 속도 향상을 달성논문 (INTERSPEECH 2024) : Paper Link1. IntroductionVocoder는 speech acoustic feature..
iSTFTNet2: Faster and More Lightweight iSTFT-based Neural Vocoder Using 1D-2D CNNiSTFTNet은 1D CNN을 backbone으로 사용하고 일부를 iSTFT로 대체해 빠르고 고품질의 음성 합성을 지원함- BUT, 1D CNN은 high-dimensional spectrogram을 모델링하기 어렵고, temporal upsampling에 대한 추가적인 속도 개선의 여지가 남아있음iSTFTNet2Temporal, spectral structure를 각각 모델링하기 위해 1D-2D CNN을 활용해 iSTFTNet을 개선Few-frequency space에서 conversion 이후 frequency upsampling을 수행하는 2D CNN을 ..
ItoWave: Ito Stochastic Differential Equation is All You Need for Wave GenerationForward/reverse-time linear stochastic differential equation의 pair에 기반한 vocoder를 구성할 수 있음ItoWaveWaveform을 tractable distribution으로 변환하는 process와 해당 tractable signal을 target wave로 변환하는 두 가지의 stochastic process를 활용Original mel-spectrogram의 conditional input 하에서 meaningful audio를 생성하기 위해 noise signal에서 excess signal을 점..
Ultra-Lightweight Neural Differential DSP Vocoder for High Quality Speech SynthesisNeural vocoder를 통해 고품질의 audio를 합성할 수 있지만, 여전히 low-end device에서는 real-time으로 사용하기 어려움한편으로 Digital Signal Processing 기반의 vocoder는 lightweight FFT를 통해 구현될 수 있으므로 neural vocoder보다 빠르게 동작가능함- BUT, vocal tract의 approximate representation에 대해 over-smoothed acoustic model prediction을 사용하므로 합성 품질이 저하되는 경향이 있음DDSP VocoderDi..
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform GenerationSTFT domain 내에서 feature extraction과 reverse waveform generation이 가능한 vocoder를 구성할 수 있음BiVocoderFeature extraction을 위해 STFT에서 파생된 amplitude, phase spectrea를 input으로 사용하고, 이를 convolution network를 통해 long-frame-shift, low-dimensional feature로 변환Waveform generation을 위해 symmetric network를 채택하여 amplitude, p..