SpeedySpeech: Efficient Neural Speech Syntheis Neural Text-to-Speech는 음성 합성의 품질을 크게 향상했지만, 여전히 추론 및 학습 속도가 느림 SpeedySpeech 계산 resource 요구사항이 적고, 빠른 spectrogram 합성이 가능한 student-teacher network 고품질 audio 생성에 self-attention layer가 필요하지 않다는 점을 이용 Residual connection이 있는 간단한 convolution을 활용하고 teacher model에 대해서만 attention layer를 적용 논문 (INTERSPEECH 2020) : Paper Link 1. Introduction 최신 Neural Text-to-..
Personalized Lightweight Text-to-Speech: Voice Cloning with Adpative Structured Pruning Personalized Text-to-Speech를 위해서는 많은 양의 recording과 큰 규모의 모델을 필요로 하므로 mobile device 배포에 적합하지 않음 이를 해결하기 위해 일반적으로 pre-train 된 Text-to-Speech 모델을 fine-tuning 하는 voice cloning을 활용함 - 여전히 pre-train된 대규모 모델에 기반을 두고 있어 한계가 있음 Adaptive Structured Pruning Trainable structured pruning을 voice cloning에 적용 Voice-cloning d..
LiteTTS: A Lightweight Mel-spectrogram-free Text-to-wave Synthesizer Based on Generative Adversarial Networks 빠른 속도로 고품질의 음성을 합성할 수 있는 lightweight end-to-end text-to-speech 모델이 필요 LiteTTS Feature prediction module과 waveform generation module을 결합한 single framework Feature prediction module은 input text 및 prosodic information에 대한 latent space embedding을 추정 Waveform generation module은 추정된 latent emb..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Parallel text-to-speech 모델은 externel aligner의 guidance 없이 학습하기 어려움 Glow-TTS Externel aligner가 필요 없는 flow-based parallel text-to-speech 모델 Flow property와 dynamic programming을 결합한 monotonic alignment search의 도입 Hard monotonic alignment를 사용하면 robust한 생성이 가능하고 flow를 활용하면 빠르고 다양한 생성이 가능 논문 (NeurIPS 2020) : Paper Link 1. Int..
Diff-TTS: A Denoising Diffusion Model for Text-to-Speech Neural text-to-speech 모델은 여전히 자연스러운 합성과 architecture 효율성이 요구됨 Diff-TTS 주어진 text에 대해 denoising diffusion을 활용하여 noise signal을 mel-spectrogram으로 변환 Text를 condition으로 하는 mel-spectrogram 분포를 학습하기 위한 likelihood-based optimization 추론 속도 향상을 위한 accelerated sampling의 도입 논문 (INTERSPEECH 2021) : Paper Link 1. Introduction 대부분의 neural text-to-speech (..
LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech Text-to-Speech 모델은 효율적인 일상 활용을 위해 edge device에 배포하는 것이 요구됨 Diffusion probabilistic model 은 다른 생성 모델들에 비해 안정적으로 학습되고 parameter 효율성이 높음 LightGrad Edge device에서 TTS를 활용하기 위한 경량 diffusion probabilistic model 경량 U-Net diffusion decoder와 빠른 sampling, streaming inference를 통한 latency 감소 논문 (ICASSP 2023) : Paper Link 1. Introduction ..