
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform GenerationSTFT domain 내에서 feature extraction과 reverse waveform generation이 가능한 vocoder를 구성할 수 있음BiVocoderFeature extraction을 위해 STFT에서 파생된 amplitude, phase spectrea를 input으로 사용하고, 이를 convolution network를 통해 long-frame-shift, low-dimensional feature로 변환Waveform generation을 위해 symmetric network를 채택하여 amplitude, p..

Puffin: Pitch-Synchronous Neural Waveform Generation for Fullband Speech on Modest DevicesLow-powered device에서 사용할 수 있는 neural vocoder가 필요함PuffinDifferentiable pitch synchronous overlap-add를 사용하여 adversarially training 하고,Speech sample을 생성하기 위해 pitch synchronous inverse STFT를 채택논문 (ICASSP 2023) : Paper Link1. IntroductionNeural vocoder는 data-driven 방식으로 human speech 수준의 합성 품질을 달성하고 있음이러한 음성 합성 모..

SiD-WaveFlow: A Low-Resource Vocoder Independent of Prior KnowledgeFlow-based nerual vocoder는 high-fidelity의 음성을 합성할 수 있지만, training에 많은 speech data가 필요하고 computationally heavy 함SiD-WaveFlowLow-resource 합성을 위한 flow-based neural vocoderWaveGlow의 Affine Coupling Layer의 계산 효율성을 개선하기 위해 Semi-inverse Dynamic Transformation module을 도입논문 (INTERSPEECH 2022) : Paper Link1. IntroductionVocoder는 mel-spectr..

nVOC-22: A Low Cost Mel Spectrogram Vocoder for Mobile DevicesMobile CPU/GPU에서 동작할 수 있는 fully convolutional, non-autoregressive neural vocoder가 필요함nVOC-22Nearest neighbor resize와 separable convolution의 조합을 upsampling block에 적용하여 checkerboarding artifact를 최소화하고 빠른 upsampling을 지원추가적으로 Generative Adversarial Network를 기반으로 training 하여 안정적인 성능을 달성논문 (ICASSP 2023) : Paper Link1. Introduction음성 합성은 nav..

Harmonic WaveGAN: GAN-based Speech Waveform Generation Model with Harmonic Structure DiscriminatorSpeech waveform을 합성하기 위해 Generative Adversarial Network-based model을 활용할 수 있음Harmonic WaveGANTime/frequency domain에 대한 2개의 discriminator를 사용해 speech waveform의 characteristic을 capture 함특히 Harmonic Structure Discriminator는 harmonic convolution을 기반으로 harmonic structure를 모델링함논문 (INTERSPEECH 2021) : Pape..

Basis-MelGAN: Efficient Neural Vocoder based on Audio DecompositionGenerative Adversarial Network (GAN) 기반의 vocoder는 autoregressive vocoder 보다는 빠른 합성이 가능하지만, 여전히 real-time으로 동작하는 것에는 한계가 있음- 특히 waveform length와 temporal resolution을 일치시키는 upsampling layer는 많은 시간을 소모함Basis-MelGANUpsampling layer의 계산량을 줄이기 위해 raw audio sample이 learned basis와 관련 weight로 decompose 함Prediction target을 raw audio sample..