VarianceFlow: High-Quality and Controllable Text-to-Speech using Variance Information via Normalizing Flow Text와 speech 간의 one-to-many 관계를 학습하기 위해 두 가지 방식을 활용할 수 있음 - Normalizing Flow의 사용 - 합성 과정에서 pitch, energy 같은 variance information의 반영 VarianceFlow Normalizing Flow를 통해 variance를 모델링하여 더 정확하게 variance information을 예측 Normalizing Flow의 objective function은 variance와 text를 disentangle 하여 varianc..
DiffVoice: Text-to-Speech with Latent Diffusion Text-to-Speech 모델의 성능 향상을 위해 latent diffusion을 활용할 수 있음 DiffVoice Adversarial training을 활용한 variational autoencoder를 통해 speech signal을 phoneme-rate representation으로 encode Diffusion model을 통한 latent representation과 duration의 joint modelling 논문 (ICASSP 2023) : Paper Link 1. Introduction Diffusion model은 합성 작업에서 뛰어난 성능을 보이고 있음 Text-to-Speech (TTS)에서는..
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Denoising diffuion probabilistic model과 generative score matching은 복잡한 data 분포를 모델링하는데 뛰어남 Grad-TTS Encoder에 의해 예측된 noise를 점진적으로 변환하고 Monotonic Alignment Search를 통해 text input에 맞춰 정렬된 mel-spectrogram을 생성 Stochastic differential equation을 통해 noise로부터 data를 reconstruct 논문 (ICML 2021) : Paper Link 1. Introduction Text-to-Speech (TTS) 모델은 ..
CyFi-TTS: Cyclic Normalizing Flow with Fine-Grained Representation for End-to-End Text-to-Speech End-to-End Text-to-Speech는 unseen data에 대해 적용하는 것은 어려움 One-to-many 문제로 인해 text와 음성 사이에 information gap이 발생하여 mispronunciation 되기 쉽기 때문 CyFi-TTS Cyclic normalizing flow를 도입하여 information gap을 해소해 자연스러운 음성을 합성 Temporal multi-resolution upsampler를 도입하여 fine-grained representation을 점진적으로 생성 논문 (ICASSP 20..
SpeedySpeech: Efficient Neural Speech Syntheis Neural Text-to-Speech는 음성 합성의 품질을 크게 향상했지만, 여전히 추론 및 학습 속도가 느림 SpeedySpeech 계산 resource 요구사항이 적고, 빠른 spectrogram 합성이 가능한 student-teacher network 고품질 audio 생성에 self-attention layer가 필요하지 않다는 점을 이용 Residual connection이 있는 간단한 convolution을 활용하고 teacher model에 대해서만 attention layer를 적용 논문 (INTERSPEECH 2020) : Paper Link 1. Introduction 최신 Neural Text-to-..
Personalized Lightweight Text-to-Speech: Voice Cloning with Adpative Structured Pruning Personalized Text-to-Speech를 위해서는 많은 양의 recording과 큰 규모의 모델을 필요로 하므로 mobile device 배포에 적합하지 않음 이를 해결하기 위해 일반적으로 pre-train 된 Text-to-Speech 모델을 fine-tuning 하는 voice cloning을 활용함 - 여전히 pre-train된 대규모 모델에 기반을 두고 있어 한계가 있음 Adaptive Structured Pruning Trainable structured pruning을 voice cloning에 적용 Voice-cloning d..