
WaveFM: A High-Fidelity and Efficient Vocoder based on Flow MatchingFlow Matching은 diffusion model에 대한 robust training을 제공하지만 neural vocoder에 directly applying 하면 audio quality가 저하됨WaveFMStandard Gaussian prior 대신 mel-conditioned prior distribution을 채택하여 transportation cost를 minimizeRefined multi-resolution STFT loss를 결합하여 audio quality를 향상추가적으로 inference speed 향상을 위해 consistency distillation me..

RFWave: Multi-Band Rectified Flow for Audio Waveform ReconstructionDiffusion model은 waveform reconstruction에 효과적이지만 상당한 sampling step이 필요하므로 latency 문제가 존재함RFWaveComplex spectrogram을 생성하고 frame-level에서 모든 subband를 simultaneously process 함Straight transport trajectory를 위해 Rectified Flow를 도입논문 (ICLR 2025) : Paper Link1. IntroductionAudio waveform reconstruction은 raw audio data에서 derive 된 low-dimen..

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform GenerationHigh-resolution waveform signal의 natural periodic feature를 explicitly disentangle 할 수 있는 generator가 필요함PeriodWaveVector field를 추정할 때 waveform signal의 periodic feature를 capture 하는 period-aware flow matching estimator를 도입Waveform signal의 periodic feature를 capture 하는 multi-period estimator를 활용추가적으로 waveform generation에서 hig..

FA-GAN: Artifacts-Free and Phase-Aware High-Fidelity GAN-based VocoderGenerative Adversarial Network-based vocoder는 noticeable spectral artifact 문제가 존재함FA-GANNon-ideal upsampling layer로 인해 발생하는 aliasing artifact를 suppress 하기 위해 generator에 anti-aliased twin deconvolution module을 도입Blurring artifact를 완화하고 spectral detail reconstruction을 enrich 하기 위해 phase information modeling을 지원하는 fine-grained mu..

Efficient WaveGlow: An Improved WaveGlow Vocoder with Enhanced SpeedEfficient neural vocoding을 위해 기존 WaveGlow를 개선할 수 있음Efficient WaveGlowAffine coupling layer와 invertible 1×1 convolution으로 구성된 normalizing flow backbone을 활용기존 WaveNet-style network를 FFTNet-style dilated convolution network로 대체Audio, local condition feature에 group convolution을 적용Local condition은 각 coupling layer의 transform ..

QGAN: Low Footprint Quaternion Neural Vocoder for Speech SynthesisNeural vocoder는 space/time complexity 측면에서 resource-constraint가 존재함QGANQuaternion convolution과 multi-scale/period discriminator를 사용하여 structual compression을 달성Stability를 보장하기 위해 quaternion domain에서 weight-normalization을 도입논문 (INTERSPEECH 2024) : Paper Link1. IntroductionNeural vocoder는 intermediate speech representation을 translati..