
Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced SpeedEfficient neural vocoding을 위해 기존 WaveGlow를 개선할 수 있음Efficient WaveGlowAffine coupling layer와 invertible $1\times 1$ convolution으로 구성된 normalizing flow backbone을 활용기존 WaveNet-style network를 FFTNet-style dilated convolution network로 대체Audio, local condition feature에 group convolution을 적용Local condition은 각 coupling layer의 transform ..

QGAN: Low Footprint Quaternion Neural Vocoder for Speech SynthesisNeural vocoder는 space/time complexity 측면에서 resource-constraint가 존재함QGANQuaternion convolution과 multi-scale/period discriminator를 사용하여 structual compression을 달성Stability를 보장하기 위해 quaternion domain에서 weight-normalization을 도입논문 (INTERSPEECH 2024) : Paper Link1. IntroductionNeural vocoder는 intermediate speech representation을 translati..

QHM-GAN: Neural Vocoder based on Quasi-Harmonic Modeling기존 end-to-end neural vocoder는 black-box nature로 인해 speech의 intrinsic structure를 revealing 하지 못하므로 고품질 합성의 한계가 있음QHM-GANQuasi-Harmonic Model을 기반으로 network architecture를 개선Speech signal을 quasi-harmonic component로 parameterize 하여 고품질 합성을 지원하고, time consumption과 network size를 절감논문 (INTERSPEECH 2024) : Paper Link1. IntroductionVocoder는 acoustic ..

RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity ResponsesGenerative Adversarial Network-based waveform generation은 discriminator에 크게 의존함- 따라서 generation process에 uncertainty가 존재하고 pitch/intensity mismatch가 발생함RefineGANRobustness, pitch/intensity accuracy를 유지하기 위해 pitch-guided refine architecture를 구성추가적으로 training을 stabilize 하기 위해 multi..

Bunched LPCNet: Vocoder for Low-cost Neural Text-to-Speech SystemsLPCNet은 linear prediction과 neural network를 결합하여 computational complexity를 크게 낮출 수 있음Bunched LPCNetLPCNet이 추론 당 둘 이상의 audio sample을 생성하도록 하는 sample-bunchingLPCNet final layer에서 computation을 줄이는 bit-bunching을 도입논문 (INTERSPEECH 2020) : Paper Link1. IntroductionLPCNet은 추론 속도와 합성 품질 측면에서 뛰어난 성능을 달성함특히 source-filter model을 기반으로 low-cost..

End-to-End LPCNet: A Neural Vocoder with Fully-Differentiable LPC EstimationNeural vocoder는 여전히 우수한 합성 품질에 비해 높은 computational complexity가 요구됨End-to-End LPCNetLinear prediction에 기반한 autoregressive model을 사용하여 neural vocoding의 complexity를 완화추가적으로 frame rate network의 input feature에서 linear prediction cofficient를 예측하는 방법을 학습하여 기존 end-to-end version을 구성논문 (INTERSPEECH 2022) : Paper Link1. Introducti..