LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..
FastPitch: Parallel Text-to-Speech with Pitch PredictionPitch contour를 예측하면 utterance의 semantic을 일치시키고 풍부한 음성 표현력을 얻을 수 있음FastPitchFastSpeech 기반의 fully-parallel text-to-speech 모델 Pitch 조절을 통한 자연스러운 음성 변조와 frequency contour를 condition으로 한 합성 품질의 향상논문 (ICASSP 2021) : Paper Link1. IntroductionNeural Text-to-Speech (TTS)는 합성 품질 향상을 위해 다양한 방법들을 꾸준히 제시하고 있음TTS 모델은 linguistic feature나 fundamental frequ..
StreamSpeech: Low-Latency Neural Architecture For High-Quality On-Device Speech Synthesis Text-to-Speech (TTS) 모델의 추론 latency와 real-time factor (RTF)는 GPU와 같은 특수 hardware가 없는 상황에 배포하기에는 여전히 높음 StreamSpeech Single CPU를 활용한 resource 제약 환경에서 고품질, 실시간 합성을 가능하게 하는 TTS architecture Streaming과 low-latency generation을 가능하게하는 경량 convolutional acoustic decoder의 도입 논문 (ICASSP 2023) : Paper Link 1. Introduc..
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Amplitude와 Phase spectra를 직접 예측하여 acoustic feature로부터 음성 waveform을 재구성하는 neural vocoder APNet Amplitude Spectrum Predictor (ASP)와 Phase Spectrum Predictor (PSP)로 구성 ASP는 acoustic feature로부터 frame-level amplitude spectra를 예측 PSP는 acoustic feature로부터 frame-level phase spectra를 예측 논문 (TASLP 2023)..
선정 기준 : 작성자 마음대로 뽑습니다. 2023년도 앨범 결산 1. 개인적인 추천 앨범 Division 7 - : 앞선 Top25에서도 볼 수 있듯이 Division 7, The Hives처럼 올해는 유독 스웨덴 밴드의 활약이 눈에 띄는 해였습니다. 그 중 Division 7의 신보 는 북유럽 정취가 생생하게 느껴지는 앨범으로, 마치 눈보라를 불러오는 듯한 베이스와 아름답게 흐트러지는 기타 라인이 인상적인 앨범입니다. Division 7 - 'Stormen' 2. 올해의 국내 싱글 BrokenTeeth - '138' : 까와 빠 모두를 미치게 하는(?) 파란노을 탓에 상대적으로 주목도가 떨어지지만, BrokenTeeth는 전작 는 물론 이번 까지 꾸준히 높은 완성도의 앨범을 내놓고 있습니다. 그 중 2..
Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..
Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder Unified Source-Filter GAN (USFGAN)은 source filter 이론을 도입하여 높은 음성 품질과 pitch 제어를 가능하게 함 USFGAN은 높은 temporal resolution으로 인해 높은 계산 비용을 가짐 Source-Filter HiFi-GAN HiFi-GAN에 source filter 이론을 도입한, 빠르고 pitch 제어가 가능한 neural vocoder Source excitation information에 resonance filter를 계층적으로 conditioning 논문 (ICASSP 2023) : Paper ..
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Generative Adversarial Network (GAN)을 활용한 음성 합성은 autoregressive에 비해 낮은 품질을 보임 하지만 GAN을 활용하면 sampling과 메모리 효율성을 향상할 수 있음 HiFi-GAN 다양한 period를 가지는 sinusoidal pattern을 모델링 Autoregressive 모델보다 더 빠르고 고품질의 음성을 합성 논문 (NeurIPS 2020) : Paper Link 1. Introduction 대부분의 음성 합성 모델은 two-stage 구조를 가짐 Text로 부터 mel-spectrog..
어쨌거나 살아가야 할 모든 청춘들의 날씨: 쏜애플 - - Released : 2014.06.12.- Genres : Indie Rock, Alternative Rock 맑고 청명한 봄가을 날씨를 싫어하는 사람은 아마 없을 것이다. 물론 지구 온난화 덕분에(?) 이제는 그런 계절에 맞는 적당한 날씨를 찾는 것도 어려워지긴 했지만, 어쨌거나 나름대로 그 이상한 날씨도 이겨낼 방법은 있기 마련이다. 언제나 그랬듯이, 우리의 목표는 그저 오늘 하루를 무사히 보내는 것일 테니 말이다. 사계절 중에서도 봄이 가지고 있는 계절감은 확고하다. 넘쳐흐르는 푸른 생명력과 맑은 하늘의 순수함은 봄이 대표하는 그 모든 아름다움의 근원이다. 그렇기에 '청춘'을 단순히 'Youth'로 대치하기에 아쉬운 이유도, 이러한 봄을 ..
