Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Single-stage 학습을 가능하게 하는 end-to-end 방식의 text-to-speech (TTS) 모델이 제안되었지만 여전히 two-stage TTS 모델들보다 음성 품질이 낮음 Two-stage TTS 모델보다 더 자연스러운 음성을 생성하는 병렬 end-to-end TTS 모델이 필요 VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) Normalizing flow와 적대적 학습 방식을 사용한 variational 추론을 통한 생성..
Nix-TTS: Lightweight and End-to-End Text-to-Speech via Module-wise Distillation Text-to-Speech (TTS) 모델은 최적화하기 어렵거나 많은 학습 비용이 발생함 Nix-TTS Knowledge distillation을 활용한 non-autoregressive end-to-end 경량 TTS 모델 (Vocoder-free!) Encoder, Decoder 모듈에 대해 유연하고 독립적인 distillation을 가능하게 하는 Module-wise distillation 활용 논문 (SLT 2022) : Paper Link 1. Introduction 최근의 TTS 모델은 크기가 상당히 크고 CPU 추론 속도가 느림 저비용, 자원 제약 환..
EfficientSpeech: An On-Device Text to Speech Model 최신 Text to Speech (TTS) 모델은 클라우드 사용을 염두에 두고 큰 메모리 공간과 많은 연산을 필요로 함 이러한 TTS 모델은 자원과 인터넷 액세스가 제한된 edge device에서 적용되기 어려움 EfficientSpeech Shallow non-autoregressive pyramid-structure transformer 기반의 U-Network 사용 기존 TTS 모델 크기의 1% 정도로 압축된 경량화된 음성 합성 모델 논문 (ICASSP 2023) : Paper Link 1. Introduction 클라우드 서비스에 의존하지 않고 독립된 음성 합성을 가능하게 하는 것은 많은 이점을 가져다줄 수..
LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search Text to Speech (TTS) 모델을 다양한 device에 배포하기 위해서는 적은 메모리와 추론 latency를 가져야 함 Non-autoregressive TTS 모델을 통해 빠른 추론 속도를 달성했지만 여전히 자원 제약이 있는 device에 배포하기 어려움 LightSpeech Neural Architecture Search (NAS)를 활용한 FastSpeech 기반의 자동 network 설계 다양한 lightweight architecture를 포함하는 새로운 search space 구성 논문 (ICASSP 2021) : Paper Link 1. ..