Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal SupervisionMinimal supervision으로 train 할 수 있는 multi-speaker text-to-speech model이 필요함SPEAR-TTSText to High level semantic token (Reading), Semantic token to Low-level acoustic token (Speaking)의 2가지 discrete speech representation을 combining 하여 text-to-speech를 sequence-to-sequence task로 casting특히 abundant audio-only data를 사용하여 Speak..
VoiceLDM: Text-to-Speech with Environmental ContextDescription prompt와 content prompt를 활용하여 audio를 생성할 수 있음- Description prompt는 environmental context를 전달하고 content prompt는 linguistic information을 제공함VoiceLDMLatent diffusion model을 기반으로 하는 text-to-audio model을 채택하고 additional content prompt를 conditional input으로 활용할 수 있도록 확장Contrastive Language-Audio Pretraining과 Whisper를 활용하여 manual annotation, ..
Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech SynthesisStyle transfer, speech variation을 향상하기 위해 autoregressive flow-based generative network를 활용할 수 있음FlowtronTraining data의 likelihood를 maximizing 하여 optimize 되고 simple, stable training을 지원Timbre, expressivity, accent를 modulate할 수 있는 latent space에 대한 invertible mapping을 학습논문 (ICLR 2021) : Paper Link1. Introduction최근..
TSP-TTS: Text-based Style Predictor with Residual Vector Quantization for Expressive Text-to-SpeechExpressive text-to-speech는 다양한 speech style, emotion이 반영된 음성을 합성하는 것을 목표로 함TSP-TTSText 자체에서 추출한 style representation을 기반으로 condition 된 expressive text-to-speech modelText-based style predictor를 위해 Residual Vector Quantization을 도입하고 mel-decoder에 Style-Text Alignment와 Style Hierarchical Layer Normali..
FastPitchFormant: Source-Filter based Decomposed Modeling for Speech SynthesisText-to-Speech에서 large pitch-shift scale은 품질 저하와 speaker characteristic deformation을 일으킴FastPitchFormantSource-Filter theory를 기반으로 설계된 Feed-Forward Transformer modelText, acoustic feature를 개별적으로 modeling 하여 model이 두 feature 간의 relationship을 학습하는 것을 방지논문 (INTERSPEECH 2021) : Paper Link1. IntroductionText-to-Speech (TTS)..
DPP-TTS: Diversifying Prosodic Features of Speech via Determinantal Point ProcessesText-to-Speech model은 다양한 prosody를 합성할 수 있어야 함- BUT, 기존 model은 prosody diversity를 향상하기 위해 scaled sampling temperature에 의존함- Sampling procedure는 single speech sample에 focus 하므로 sample 간 diversity가 neglect 됨DPP-TTSProsody diversifying module과 Determinantal Point Process에 기반한 text-to-speech model여러 sample 간의 perceptu..