Ultra-Lightweight Neural Differential DSP Vocoder for High Quality Speech SynthesisNeural vocoder를 통해 고품질의 audio를 합성할 수 있지만, 여전히 low-end device에서는 real-time으로 사용하기 어려움한편으로 Digital Signal Processing 기반의 vocoder는 lightweight FFT를 통해 구현될 수 있으므로 neural vocoder보다 빠르게 동작가능함- BUT, vocal tract의 approximate representation에 대해 over-smoothed acoustic model prediction을 사용하므로 합성 품질이 저하되는 경향이 있음DDSP VocoderDi..
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform GenerationSTFT domain 내에서 feature extraction과 reverse waveform generation이 가능한 vocoder를 구성할 수 있음BiVocoderFeature extraction을 위해 STFT에서 파생된 amplitude, phase spectrea를 input으로 사용하고, 이를 convolution network를 통해 long-frame-shift, low-dimensional feature로 변환Waveform generation을 위해 symmetric network를 채택하여 amplitude, p..
Puffin: Pitch-Synchronous Neural Waveform Generation for Fullband Speech on Modest DevicesLow-powered device에서 사용할 수 있는 neural vocoder가 필요함PuffinDifferentiable pitch synchronous overlap-add를 사용하여 adversarially training 하고,Speech sample을 생성하기 위해 pitch synchronous inverse STFT를 채택논문 (ICASSP 2023) : Paper Link1. IntroductionNeural vocoder는 data-driven 방식으로 human speech 수준의 합성 품질을 달성하고 있음이러한 음성 합성 모..
SiD-WaveFlow: A Low-Resource Vocoder Independent of Prior KnowledgeFlow-based nerual vocoder는 high-fidelity의 음성을 합성할 수 있지만, training에 많은 speech data가 필요하고 computationally heavy 함SiD-WaveFlowLow-resource 합성을 위한 flow-based neural vocoderWaveGlow의 Affine Coupling Layer의 계산 효율성을 개선하기 위해 Semi-inverse Dynamic Transformation module을 도입논문 (INTERSPEECH 2022) : Paper Link1. IntroductionVocoder는 mel-spectr..
nVOC-22: A Low Cost Mel Spectrogram Vocoder for Mobile DevicesMobile CPU/GPU에서 동작할 수 있는 fully convolutional, non-autoregressive neural vocoder가 필요함nVOC-22Nearest neighbor resize와 separable convolution의 조합을 upsampling block에 적용하여 checkerboarding artifact를 최소화하고 빠른 upsampling을 지원추가적으로 Generative Adversarial Network를 기반으로 training 하여 안정적인 성능을 달성논문 (ICASSP 2023) : Paper Link1. Introduction음성 합성은 nav..
Harmonic WaveGAN: GAN-based Speech Waveform Generation Model with Harmonic Structure DiscriminatorSpeech waveform을 합성하기 위해 Generative Adversarial Network-based model을 활용할 수 있음Harmonic WaveGANTime/frequency domain에 대한 2개의 discriminator를 사용해 speech waveform의 characteristic을 capture 함특히 Harmonic Structure Discriminator는 harmonic convolution을 기반으로 harmonic structure를 모델링함논문 (INTERSPEECH 2021) : Pape..