반응형
[Paper 리뷰] Basis-MelGAN: Efficient Neural Vocoder based on Audio Decomposition
Basis-MelGAN: Efficient Neural Vocoder based on Audio DecompositionGenerative Adversarial Network (GAN) 기반의 vocoder는 autoregressive vocoder 보다는 빠른 합성이 가능하지만, 여전히 real-time으로 동작하는 것에는 한계가 있음- 특히 waveform length와 temporal resolution을 일치시키는 upsampling layer는 많은 시간을 소모함Basis-MelGANUpsampling layer의 계산량을 줄이기 위해 raw audio sample이 learned basis와 관련 weight로 decompose 함Prediction target을 raw audio sample..
Paper/Vocoder
2024. 5. 21. 20:12
반응형