StreamSpeech: Low-Latency Neural Architecture For High-Quality On-Device Speech Synthesis Text-to-Speech (TTS) 모델의 추론 latency와 real-time factor (RTF)는 GPU와 같은 특수 hardware가 없는 상황에 배포하기에는 여전히 높음 StreamSpeech Single CPU를 활용한 resource 제약 환경에서 고품질, 실시간 합성을 가능하게 하는 TTS architecture Streaming과 low-latency generation을 가능하게하는 경량 convolutional acoustic decoder의 도입 논문 (ICASSP 2023) : Paper Link 1. Introduc..
FastSpeech: Fast, Robust and Controllable Text to Speech 기존의 Text-to-Speech (TTS) 모델은 text에서 mel-spectrogram을 생성한 다음, WaveNet과 같은 vocoder를 사용해 mel-spectrogram에서 음성을 합성함 End-to-end TTS 모델은 추론 속도가 느리고 합성된 음성이 robust 하지 않고, controllability (voice speed, prosody control)가 떨어짐 FastSpeech Mel-spectrogram을 병렬로 생성하는 transformer 기반 feed-forward network Phoneme duration 예측을 위해 encoder-decoder 기반 teacher 모..
FastSpeech2: Fast and High-Quality End-to-End Text to Speech FastSpeech와 같은 non-autoregressive Text-to-Speech (TTS) 모델은 빠르게 음성합성이 가능함 FastSpeech는 duration prediction과 knowledge distillation을 위해 autoregressive teacher 모델에 의존적임 Teacher-student distillation 과정이 복잡하고 시간 소모적임 Teacher 모델에서 추출한 duration이 정확하지 않고 target mel-spectrogram의 단순함으로 인해 정보 손실이 발생함 FastSpeech 2 Teacher의 단순화된 output 대신 ground-tru..
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Single-stage 학습을 가능하게 하는 end-to-end 방식의 text-to-speech (TTS) 모델이 제안되었지만 여전히 two-stage TTS 모델들보다 음성 품질이 낮음 Two-stage TTS 모델보다 더 자연스러운 음성을 생성하는 병렬 end-to-end TTS 모델이 필요 VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) Normalizing flow와 적대적 학습 방식을 사용한 variational 추론을 통한 생성..
Nix-TTS: Lightweight and End-to-End Text-to-Speech via Module-wise Distillation Text-to-Speech (TTS) 모델은 최적화하기 어렵거나 많은 학습 비용이 발생함 Nix-TTS Knowledge distillation을 활용한 non-autoregressive end-to-end 경량 TTS 모델 (Vocoder-free!) Encoder, Decoder 모듈에 대해 유연하고 독립적인 distillation을 가능하게 하는 Module-wise distillation 활용 논문 (SLT 2022) : Paper Link 1. Introduction 최근의 TTS 모델은 크기가 상당히 크고 CPU 추론 속도가 느림 저비용, 자원 제약 환..
EfficientSpeech: An On-Device Text to Speech Model 최신 Text to Speech (TTS) 모델은 클라우드 사용을 염두에 두고 큰 메모리 공간과 많은 연산을 필요로 함 이러한 TTS 모델은 자원과 인터넷 액세스가 제한된 edge device에서 적용되기 어려움 EfficientSpeech Shallow non-autoregressive pyramid-structure transformer 기반의 U-Network 사용 기존 TTS 모델 크기의 1% 정도로 압축된 경량화된 음성 합성 모델 논문 (ICASSP 2023) : Paper Link 1. Introduction 클라우드 서비스에 의존하지 않고 독립된 음성 합성을 가능하게 하는 것은 많은 이점을 가져다줄 수..