TSP-TTS: Text-based Style Predictor with Residual Vector Quantization for Expressive Text-to-SpeechExpressive text-to-speech는 다양한 speech style, emotion이 반영된 음성을 합성하는 것을 목표로 함TSP-TTSText 자체에서 추출한 style representation을 기반으로 condition 된 expressive text-to-speech modelText-based style predictor를 위해 Residual Vector Quantization을 도입하고 mel-decoder에 Style-Text Alignment와 Style Hierarchical Layer Normali..
FastPitchFormant: Source-Filter based Decomposed Modeling for Speech SynthesisText-to-Speech에서 large pitch-shift scale은 품질 저하와 speaker characteristic deformation을 일으킴FastPitchFormantSource-Filter theory를 기반으로 설계된 Feed-Forward Transformer modelText, acoustic feature를 개별적으로 modeling 하여 model이 두 feature 간의 relationship을 학습하는 것을 방지논문 (INTERSPEECH 2021) : Paper Link1. IntroductionText-to-Speech (TTS)..
DPP-TTS: Diversifying Prosodic Features of Speech via Determinantal Point ProcessesText-to-Speech model은 다양한 prosody를 합성할 수 있어야 함- BUT, 기존 model은 prosody diversity를 향상하기 위해 scaled sampling temperature에 의존함- Sampling procedure는 single speech sample에 focus 하므로 sample 간 diversity가 neglect 됨DPP-TTSProsody diversifying module과 Determinantal Point Process에 기반한 text-to-speech model여러 sample 간의 perceptu..
DualSpeech: Enhancing Speaker-Fidelity and Text-Intelligibility Through Dual Classifier-Free Guidance다양한 control demand 하에서 speaker-fidelity와 text-intelligibility 간의 optimal balance를 달성하는 것은 어려움DualSpeechPhoneme-level latent diffusion과 Dual classifier-free guidance를 도입Sophisticated control을 통해 fidelity와 intelligibility를 향상논문 (INTERSPEECH 2024) : Paper Link1. IntroductionText-to-Speech (TTS)는 hum..
FlashSpeech: Efficient Zero-Shot Speech Synthesis최근의 large-scale zero-shot speech synthesis는 language model과 diffusion을 기반으로 구축되므로 computationally intensive 하고 generation process가 느림FlashSpeechLatent consistency model을 기반으로 adversarial consistency training을 도입Prosody generator module을 통해 prosody diversity를 향상논문 (MM 2024) : Paper Link1. IntroductionText-to-Speech (TTS)에서 zero-shot synthesis는 addi..
PitchFlow: Adding Pitch Control to a Flow-Matching based TTS ModelFlow-matching Text-to-Speech model은 stability와 control 측면에서 한계가 있음PitchFlowSpeaker scoring과 pitch guidance를 도입하여 생성된 speech의 timbre와 pitch contour를 controlPrior에 대한 optimal choice를 통해 similarity를 개선하고 classifier guidance를 통해 fine-grained pitch contorl을 지원논문 (INTERSPEECH 2024) : Paper Link1. Introduction최근의 Text-to-Speech (TTS) mod..