Diff-TTS: A Denoising Diffusion Model for Text-to-Speech Neural text-to-speech 모델은 여전히 자연스러운 합성과 architecture 효율성이 요구됨 Diff-TTS 주어진 text에 대해 denoising diffusion을 활용하여 noise signal을 mel-spectrogram으로 변환 Text를 condition으로 하는 mel-spectrogram 분포를 학습하기 위한 likelihood-based optimization 추론 속도 향상을 위한 accelerated sampling의 도입 논문 (INTERSPEECH 2021) : Paper Link 1. Introduction 대부분의 neural text-to-speech (..
LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech Text-to-Speech 모델은 효율적인 일상 활용을 위해 edge device에 배포하는 것이 요구됨 Diffusion probabilistic model 은 다른 생성 모델들에 비해 안정적으로 학습되고 parameter 효율성이 높음 LightGrad Edge device에서 TTS를 활용하기 위한 경량 diffusion probabilistic model 경량 U-Net diffusion decoder와 빠른 sampling, streaming inference를 통한 latency 감소 논문 (ICASSP 2023) : Paper Link 1. Introduction ..
LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..
FastPitch: Parallel Text-to-Speech with Pitch Prediction Pitch contour를 예측하면 utterance의 semantic을 일치시키고 풍부한 음성 표현력을 얻을 수 있음 FastPitch FastSpeech 기반의 fully-parallel text-to-speech 모델 Pitch 조절을 통한 자연스러운 음성 변조와 frequency contour를 condition으로 한 합성 품질의 향상 논문 (ICASSP 2021) : Paper Link 1. Introduction Neural Text-to-Speech (TTS)는 합성 품질 향상을 위해 다양한 방법들을 꾸준히 제시하고 있음 TTS 모델은 linguistic feature나 fundamenta..
StreamSpeech: Low-Latency Neural Architecture For High-Quality On-Device Speech Synthesis Text-to-Speech (TTS) 모델의 추론 latency와 real-time factor (RTF)는 GPU와 같은 특수 hardware가 없는 상황에 배포하기에는 여전히 높음 StreamSpeech Single CPU를 활용한 resource 제약 환경에서 고품질, 실시간 합성을 가능하게 하는 TTS architecture Streaming과 low-latency generation을 가능하게하는 경량 convolutional acoustic decoder의 도입 논문 (ICASSP 2023) : Paper Link 1. Introduc..
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Amplitude와 Phase spectra를 직접 예측하여 acoustic feature로부터 음성 waveform을 재구성하는 neural vocoder APNet Amplitude Spectrum Predictor (ASP)와 Phase Spectrum Predictor (PSP)로 구성 ASP는 acoustic feature로부터 frame-level amplitude spectra를 예측 PSP는 acoustic feature로부터 frame-level phase spectra를 예측 논문 (TASLP 2023)..