VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis 가사와 악보로부터 가창 음성을 직접 생성하는 End-to-End Singing Voice Synthesis (SVS) 모델 Normalizing flow 기반 VAE를 채택한 End-to-End Text-to-Speech (TTS) 모델인 VITS를 활용 VISinger Phoneme-level 평균, 분산 대신 Length regulator, Frame prior network를 사용하여 노래의 음향 변화를 모델링 F0 predictor를 통한 안정적인 가창 음성 합성 리듬감 향상을 위한 Duration predictor의 수정 논..
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Single-stage 학습을 가능하게 하는 end-to-end 방식의 text-to-speech (TTS) 모델이 제안되었지만 여전히 two-stage TTS 모델들보다 음성 품질이 낮음 Two-stage TTS 모델보다 더 자연스러운 음성을 생성하는 병렬 end-to-end TTS 모델이 필요 VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) Normalizing flow와 적대적 학습 방식을 사용한 variational 추론을 통한 생성..
