DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANsDenoising Diffusion Probabilistic Model (DDPM)은 음성 합성에서 우수한 성능으로 보이고 있지만, 높은 sampling cost의 문제가 있음DiffGAN-TTSDenoising distribution을 근사하기 위해 adversarially-trained expressive model을 채택한 denoising diffusion generative adversarial network (GAN)을 기반으로 함추가적으로 추론 속도를 더욱 향상하기 위해 active shallow diffusion mechanism을 도입Tw..
CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency ModelsText-to-Speech에서 diffusion model을 사용하면 high-fidelity의 음성을 합성할 수 있지만 multi-step sampling으로 인해 real-time synthesis에는 한계가 있음한편으로 GAN과 diffusion model을 결합하여 denoising distribution을 근사하는 방식으로 추론 속도를 개선할 수 있지만, adversarial training으로 인해 모델 수렴의 어려움이 있음CM-TTSConsistency Model (CM)을 기반으로 advers..
EnCodecMAE: Leveraging Neural Codecs for Universal Audio Representation LearningUniversal audio representation learning은 다양한 downstream task에서 사용할 수 있는 foundational model을 요구함EnCodecMAEBERT와 같은 self-supervised universal audio model에 적용하기 위해 audio signal을 discrete class set으로 mapping결과적으로 Masked AutoEncoder (MAE)를 기반으로 discrete target을 생성하는 neural codec을 구성논문 (ICASSP 2024) : Paper Link1. Introduc..
DurIAN-E2: Duration Informed Attention Network with Adaptive Variational Autoencoder and Adversarial Learning for Expressive Text-to-Speech SynthesisExpressive, high-fidelity text-to-speech를 위해 duration informed attention model을 고려할 수 있음DurIAN-E2Multiple stacked SwishRNN-based Transformer block을 linguistic encoder로 채택하고 Style-Adaptive Instance Normalization layer를 frame-level encoder에 추가하여 expre..
LMCodec: A Low Bitrate Speech Codec with Causal Transformer ModelsNeural codec은 낮은 bitrate로 고품질의 audio를 얻을 수 있어야 함LMCodecBackbone으로 residual vector quantization을 사용하여 audio를 coarse-to-fine token의 hierarchy로 encoding 하는 causal convolutional codec을 사용이때 generative 방식으로 coarse-to-fine token을 예측하도록 Transformer language model을 training 하여 더 적은 수의 code를 transmission 할 수 있음Second Transformer의 경우, past ..
Basis-MelGAN: Efficient Neural Vocoder based on Audio DecompositionGenerative Adversarial Network (GAN) 기반의 vocoder는 autoregressive vocoder 보다는 빠른 합성이 가능하지만, 여전히 real-time으로 동작하는 것에는 한계가 있음- 특히 waveform length와 temporal resolution을 일치시키는 upsampling layer는 많은 시간을 소모함Basis-MelGANUpsampling layer의 계산량을 줄이기 위해 raw audio sample이 learned basis와 관련 weight로 decompose 함Prediction target을 raw audio sample..