
VocGAN: A High-Fidelity Real-Time Vocoder with a Hierarchically-nested Adversarial NetworkGAN-based vocoder는 real-time 합성이 가능하지만 input mel-spectrogram의 acoustic characteristic과 incosistent 한 waveform을 생성하는 경우가 많음VocGANGAN-based vocoder의 합성 속도를 유지하면서 output waveform의 품질과 consistency를 개선Multi-scale waveform generator와 hierarchically-nested discriminator를 활용해 multiple level의 acoustic property를 학습Jo..

IST-TTS: Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion BridgeText-to-Speech에서 style transfer는 중요해지고 있음IST-TTSVariational autoencoder (VAE)와 diffusion refiner를 결합하여 refined mel-spectrogram을 얻음- 이때 audio 품질과 style transfer 성능을 향상하기 위해 two-stage, one-stage system을 각각 설계함Quantized VAE의 diffusion bridge를 통해 complex discrete style representation을 학습하고 transfer 성능을 향상더 나..

ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-SpeechDiffusion model은 text-to-speech에서 우수한 성능을 보이고 있지만, iterative sampling process로 인해 accleration의 한계가 있음특히 gradient-based model은 높은 품질을 보장하기 위해 수천번의 iteration이 필요함ProDiff고품질의 text-to-speech를 위한 progressive fast diffusion modelSampling accleration 시 발생하는 품질 저하를 방지하기 위해 clean data를 직접 예측하여 desnoising model을 parameterizationDiffu..

SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-Filter ModelHigh-fidelity human-like singing voice synthesis를 위해 source-filter mechanism을 활용할 수 있음SiFiSingerVITS에서 확장된 training paradigm을 활용하고 fundamental pitch ($F0$) predictor, waveform decoder 등의 component를 통합Interwined mel-spectrogram과 $F0$ characteristic을 decouple하기 위해 mel-cepstrum feature를 활용Pitch nuance를 보다 정..

PAVITS: Exploring Prosody-Aware VITS for End-to-End Emotional Voice ConversionEmotional voice conversion은 high content naturalness와 high emotional naturalness를 만족해야 함PAVITSContent naturalness를 향상하기 위해 VITS를 기반으로 하는 end-to-end architecture를 채택- Acoustic converter와 vocoder를 seamlessly integrating 하여 emotional prosody training과 runtime conversion 간의 mismatch 문제를 해결Emotional naturalness를 위해 다양한 emot..

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive NormalizationLightweight neural vocoder는 여전히 perceptual quailty 측면에서 열등한 성능을 보임StyleMelGAN낮은 complexity를 가지면서 high-fidelity의 음성을 합성할 수 있는 lightweight neural vocoderTemporal Adaptive Normalization을 사용하여 target speech의 acoustic feature로 low-dimensional noise vector를 style 함Random Window Discriminator는 multi-scale sp..

* Python을 기준으로 합니다소수 판별 - 밀러-라빈 판정법 (Miller-Rabin Primality Test)- 개념밀러-라빈 소수 판정법간단한 소수 판별은 $O(\sqrt{n})$의 time complexity를 가지고, 에라토스테네스의 체를 사용하면 $O(n \log \log n)$으로 개선 가능 하지만, 여전히 상당히 큰 수에 대해서는 소수 판별을 적용하기 어려움밀러-라빈 판정법은 기존 소수 판별법들과 달리 결정론적으로 동작하지 않고 확률적으로 동작하지만, 상당히 빠른 time complexity를 달성할 수 있음- 이때 $n 이론적 유도먼저 모든 짝수는 2를 제외하면 소수가 아니므로 $n$을 홀수인 소수라고 가정하자그러면 $n-1$을 정수 $s$에 대해 짝수 $2^{s}$와 홀수 $d$의 ..

VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature대부분의 text-to-speech 모델은 acoustic model과 vocoder로 구성된 cascade system을 기반으로 함이때 acoustic feature로써 일반적으로 mel-spectrogram을 활용하는데, 이는 time-frequency axis를 따라 high-correlated 되어 있기 때문에 acoustic model로 예측하기 어려움VQTTS일반적인 mel-spectrogram이 아닌 self-supervised Vector-Quantized acoustic feature에 대해 acoustic model로써 txt2vec..

Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with Very Low Computational ComplexityGAN-based vocoder는 고품질 waveform을 합성하는데 자주 사용됨BUT, 대부분의 architecture는 sample-wise로 waveform을 생성하므로 상당한 GFLOPS가 필요함- 결과적으로 accelerator나 parallel computer 없이 일반적인 CPU에서 사용하기 어려움Framewise WaveGANFramewise로 time domain signal을 생성하기 위해 recurrent, fully-connected network를 활용하는 GAN-based vocoder결과적으로 c..