UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation Full-band spectral feature를 사용하면 vocoder에 많은 acoustic information을 제공할 수 있음 - BUT, full-band mel-spectrogram 사용 시 over-smoothing 문제가 발생할 수 있음 UnivNet Full-band over-smoothing 문제를 해결하는 고품질 neural vocoder Multiple linear spectrogram magnitude를 사용하는 multi-resolution spectrogram discrimin..
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Generative Adversarial Network는 빠른 합성을 보장하면서 고품질의 음성을 생성할 수 있음 SpecDiff-GAN Discriminator 이전에 Gaussian noise를 real/fake sample 모두에 inject 하는 forward diffusion process를 통해 training stability를 향상 Discriminator task를 더 어렵게 만드는 spectrally-shaped noise 분포를 도입 논문 (ICASSP 2024) : Paper Link 1. Introduction Audio 합성은 주어..
LightVoc: An Upsampling-Free GAN Vocoder based on Conformer and Inverse Short-Time Fourier Transform Generative Adversarial Network (GAN) 기반의 기존 vocoder는 mel-spectrogram으로부터 audio를 생성하기 위해 iterative upsampling을 필요로 함 - Iterative upsampling은 network 복잡도를 증가시키므로 vocoder의 추론 속도를 저하시키는 주요 원인 LightVoc Upsampling block을 Conformer block으로 대체하는 GAN-based vocoder 새로운 discriminator 조합을 도입하여 full-band에 걸쳐 ..
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Generative Adversarial Network (GAN)를 사용하여 안정적이고 고품질의 waveform을 합성할 수 있음 MelGAN Mel-spectrogram inversion을 위해 GAN에 대한 architecture 수정과 간단한 training technique을 도입 더 적은 parameter 수와 빠른 추론 속도를 가지는 non-autoregressive 하고 fully convolutional 한 neural vocoder Conditional sequence 합성을 위한 general purpose discriminator 설계로 확장 가능 논문..
Avocodo: Generative Adversarial Network for Artifact-Free VocoderGenerative Adversarial Network (GAN) 기반의 vocoder는 고품질의 음성 합성이 가능함- 이때 대부분의 speech component는 low-frequency band에 집중되어 있기 때문에 downsampling을 통한 multi-scale analysis를 활용BUT, multi-scale analysis는 unintended artifact를 발생시킬 가능성이 높음AvocodoArtifact 발생을 줄여 고품질의 합성이 가능한 GAN-based VocoderCollaborative multi-band discriminator와 sub-band discr..
DSPGAN: A GAN-based Universal Vocoder for High-Fidelity TTS by Time-Frequency Domain Supervision from DSP Generative Adversarial Network를 활용한 vocoder는 빠른 추론 속도와 효과적인 raw waveform 합성이 가능 하지만 unseen speaker에 대해서는 high-fidelity speech를 합성하기는 어려움 DSPGAN Digital Signal Processing에서의 time-frequency domain supervision을 도입하여 고품질 합성을 지원 Ground-truth와 예측 mel-spectrogram 사이의 mismatch를 해소하기 위해 DSP module에서 ..