
GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion ModelDiffusion model은 diffusion process로 인한 비효율성이 존재하고 unseen speaker에 대한 고품질 합성이 어려움GLA-GradConditioning error를 최소화하면서 diffusion process의 효율성을 향상하기 위해 diffusion process의 각 step에 Griffin-Lim algorithm을 도입이를 통해 추가적인 training이나 fine-tuning 없이 already-trained waveform generation model에 직접 적용 가능논문 (ICASSP 2024) : Paper Link1. Introductio..

Eden-TTS: A Simple and Efficient Parallel Text-to-Speech Architecture with Collaborative Duration-Alignment LearningText-to-Speech에서 빠른 추론 속도는 non-autoregressive model를 통해 달성될 수 있고, 이때 parallel synthesis를 위해 text-speech alignment를 학습하는 것이 중요함- BUT, 기존 방식들은 복잡한 training procedure나 external aligner가 필요Eden-TTSSingle fully-differentiable model에서 duration prediction, text-speech alignment, speech ge..

MQTTS: A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous SpeechText-to-Speech에서 human-level diversity를 반영할 필요가 있음MQTTSMel-spectrogram based autoregressive model의 alignment mismatch 문제를 해결하기 위해 multiple code group으로 학습된 discrete code를 활용합성 품질 향상을 위해 clean silence prompt를 활용하고 multiple code generation과 monotonic alignment architecture를 도입논문 (AAAI 2023) : Paper Link..

VocGAN: A High-Fidelity Real-Time Vocoder with a Hierarchically-nested Adversarial NetworkGAN-based vocoder는 real-time 합성이 가능하지만 input mel-spectrogram의 acoustic characteristic과 incosistent 한 waveform을 생성하는 경우가 많음VocGANGAN-based vocoder의 합성 속도를 유지하면서 output waveform의 품질과 consistency를 개선Multi-scale waveform generator와 hierarchically-nested discriminator를 활용해 multiple level의 acoustic property를 학습Jo..

IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion BridgeText-to-Speech에서 style transfer는 중요해지고 있음IST-TTSVariational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음- 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상더 나..

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-SpeechDiffusion model은 text-to-speech에서 우수한 성능을 보이고 있지만, iterative sampling process로 인해 accleration의 한계가 있음특히 gradient-based model은 높은 품질을 보장하기 위해 수천번의 iteration이 필요함ProDiff고품질의 text-to-speech를 위한 progressive fast diffusion modelSampling accleration 시 발생하는 품질 저하를 방지하기 위해 clean data를 직접 예측하여 desnoising model을 parameterizationDiffu..

SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-Filter ModelHigh-fidelity human-like singing voice synthesis를 위해 source-filter mechanism을 활용할 수 있음SiFiSingerVITS에서 확장된 training paradigm을 활용하고 fundamental pitch (F0) predictor, waveform decoder 등의 component를 통합Interwined mel-spectrogram과 F0 characteristic을 decouple하기 위해 mel-cepstrum feature를 활용Pitch nuance를 보다 정..

PAVITS: Exploring Prosody-Aware VITS for End-to-End Emotional Voice ConversionEmotional voice conversion은 high content naturalness와 high emotional naturalness를 만족해야 함PAVITSContent naturalness를 향상하기 위해 VITS를 기반으로 하는 end-to-end architecture를 채택- Acoustic converter와 vocoder를 seamlessly integrating 하여 emotional prosody training과 runtime conversion 간의 mismatch 문제를 해결Emotional naturalness를 위해 다양한 emot..

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive NormalizationLightweight neural vocoder는 여전히 perceptual quailty 측면에서 열등한 성능을 보임StyleMelGAN낮은 complexity를 가지면서 high-fidelity의 음성을 합성할 수 있는 lightweight neural vocoderTemporal Adaptive Normalization을 사용하여 target speech의 acoustic feature로 low-dimensional noise vector를 style 함Random Window Discriminator는 multi-scale sp..