LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..
FastPitch: Parallel Text-to-Speech with Pitch Prediction Pitch contour를 예측하면 utterance의 semantic을 일치시키고 풍부한 음성 표현력을 얻을 수 있음 FastPitch FastSpeech 기반의 fully-parallel text-to-speech 모델 Pitch 조절을 통한 자연스러운 음성 변조와 frequency contour를 condition으로 한 합성 품질의 향상 논문 (ICASSP 2021) : Paper Link 1. Introduction Neural Text-to-Speech (TTS)는 합성 품질 향상을 위해 다양한 방법들을 꾸준히 제시하고 있음 TTS 모델은 linguistic feature나 fundamenta..
StreamSpeech: Low-Latency Neural Architecture For High-Quality On-Device Speech Synthesis Text-to-Speech (TTS) 모델의 추론 latency와 real-time factor (RTF)는 GPU와 같은 특수 hardware가 없는 상황에 배포하기에는 여전히 높음 StreamSpeech Single CPU를 활용한 resource 제약 환경에서 고품질, 실시간 합성을 가능하게 하는 TTS architecture Streaming과 low-latency generation을 가능하게하는 경량 convolutional acoustic decoder의 도입 논문 (ICASSP 2023) : Paper Link 1. Introduc..
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Amplitude와 Phase spectra를 직접 예측하여 acoustic feature로부터 음성 waveform을 재구성하는 neural vocoder APNet Amplitude Spectrum Predictor (ASP)와 Phase Spectrum Predictor (PSP)로 구성 ASP는 acoustic feature로부터 frame-level amplitude spectra를 예측 PSP는 acoustic feature로부터 frame-level phase spectra를 예측 논문 (TASLP 2023)..
선정 기준 : 작성자 마음대로 뽑습니다. 2023년도 앨범 결산 1. 개인적인 추천 앨범 Division 7 - : 앞선 Top25에서도 볼 수 있듯이 Division 7, The Hives처럼 올해는 유독 스웨덴 밴드의 활약이 눈에 띄는 해였습니다. 그 중 Division 7의 신보 는 북유럽 정취가 생생하게 느껴지는 앨범으로, 마치 눈보라를 불러오는 듯한 베이스와 아름답게 흐트러지는 기타 라인이 인상적인 앨범입니다. Division 7 - 'Stormen' 2. 올해의 국내 싱글 BrokenTeeth - '138' : 까와 빠 모두를 미치게 하는(?) 파란노을 탓에 상대적으로 주목도가 떨어지지만, BrokenTeeth는 전작 는 물론 이번 까지 꾸준히 높은 완성도의 앨범을 내놓고 있습니다. 그 중 2..
Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..