반응형
[Paper 리뷰] Fre-GAN 2: Fast and Efficient Frequency-Consistent Audio Synthesis
Fre-GAN 2: Fast and Efficient Frequency-Consistent Audio Synthesis 대규모의 TTS 모델은 resource가 제한된 device에 적용하기 어려우므로 neural vocoder는 효율적이면서도 고품질의 합성이 가능해야 함 Fre-GAN 2 Audio의 low/high-frequency에서 합성을 수행하고, inverse discrete wavelet transform을 통해 target-resolution audio를 reproduce 적은 수의 parameter 만으로 고품질의 audio를 합성할 수 있도록 adversarial periodic feature distillation을 도입 논문 (ICASSP 2022) : Paper Link 1. In..
Paper/Vocoder
2024. 1. 19. 13:54
반응형