'Paper/Vocoder' 카테고리의 글 목록 (11 Page)

[Paper 리뷰] SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral ShapingDenoising Diffusion Probabilistic Model을 사용하는 neural vocoder는 주어진 acoustic feature에 대한 diffusion noise 분포를 조절함SpecGradTime-varying spectral envelope가 conditioning log mel-spectrogram에 가까워지도록 diffusion noise를 조절하는 neural vocoderTime-varying filter를 통한 high-frequency band에서의 품질 상승논문 (INTERSPEECH 2022) ..

Paper/Vocoder 2024. 1. 16. 15:38

[Paper 리뷰] InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training

InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in TrainingDenoising diffusion probabilistic model은 추론 과정에서 많은 반복이 필요하므로 추론 속도가 느림추론 속도 향상을 위해 추론 schedule을 최적화하는 것이 필요- However, 일반적으로 추론과 학습 process는 개별적으로 최적화됨InferGrad추론 process를 학습에 통합한 vocoder용 diffusion model학습 중 추론 schedule에 따라 reverse process를 통해 random noise로부터 data를 생성하여, 생성된 data와 실제의 차이를 최소화논문 (ICASSP 2022) :..

Paper/Vocoder 2024. 1. 11. 15:45

[Paper 리뷰] WaveGlow: A Flow-Based Generative Network for Speech Synthesis

WaveGlow: A Flow-Based Generative Network for Speech Synthesis Flow-based network는 autoregression 없이 mel-spectrogram에서 고품질 음성을 합성할 수 있음 WaveGlow 고품질 음성 합성을 위해 Glow와 WaveNet의 아이디어를 활용 Training data의 likelihood를 최대화하여 training 단계를 간단하고 안정적으로 만듦 논문 (ICASSP 2019) : Paper Link 1. Introduction 효율적이고 고품질의 음성 합성에 대한 요구사항은 점차 증대되고 있음 음성 품질, latency에 대한 작은 변화도 customer experience와 preference에 큰 영향을 미치기 때문..

Paper/Vocoder 2023. 12. 25. 12:49

[Paper 리뷰] LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

LPCNet: Improving Neural Speech Synthesis Through Linear Prediction 음성 합성 모델은 실시간 동작을 위해 많은 GPU를 필요로 함 LPCNet 음성 합성 효율성 향상을 위해 linear prediction을 활용한 WaveRNN의 변형 모델 동일한 네트워크 크기에 대해 WaveRNN 보다 더 높은 품질과 낮은 복잡도를 달성 논문 (ICASSP 2019) : Paper Link 1. Introduction Neural network 기반의 음성 합성 모델은 고품질의 음성 합성을 가능하게 함 WaveNet과 같은 1세대 모델들은 수백억 개의 GFLOPS를 제공하는 high-end GPU를 기반으로 구성됨 따라서 GPU가 없고 배터리가 제한된 모바일 환경에..

Paper/Vocoder 2023. 12. 15. 11:17

[Paper 리뷰] APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra

APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Amplitude와 Phase spectra를 직접 예측하여 acoustic feature로부터 음성 waveform을 재구성하는 neural vocoder APNet Amplitude Spectrum Predictor (ASP)와 Phase Spectrum Predictor (PSP)로 구성 ASP는 acoustic feature로부터 frame-level amplitude spectra를 예측 PSP는 acoustic feature로부터 frame-level phase spectra를 예측 논문 (TASLP 2023)..

Paper/Vocoder 2023. 12. 1. 16:01

[Paper 리뷰] Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech

Multi-Band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 고품질 음성 합성과 빠른 생성을 목표로 기존 MelGAN을 개선 Multi-Band MelGAN MelGAN을 multi-band로 확장하고 generator의 receptive field를 확장 Feature matching loss를 multi-resolution STFT loss로 대체 논문 (SLT 2021) : Paper Link 1. Introduction WaveNet, WaveRNN, SampleRNN과 같은 기존의 고품질 neural vocoder는 autoregressive (AR) 모델임 AR 모델은 long-term dependecny를 모델링하..

Paper/Vocoder 2023. 11. 22. 11:01

이전 1 ··· 8 9 10 11 12 다음

이전 다음

최근에 올라온 글

최근에 달린 댓글

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Total

Today

Yesterday

Let IT Begin

티스토리툴바