반응형
[Paper 리뷰] iSTFTNet2: Faster and More Lightweight iSTFT-based Neural Vocoder Using 1D-2D CNN
iSTFTNet2: Faster and More Lightweight iSTFT-based Neural Vocoder Using 1D-2D CNNiSTFTNet은 1D CNN을 backbone으로 사용하고 일부를 iSTFT로 대체해 빠르고 고품질의 음성 합성을 지원함- BUT, 1D CNN은 high-dimensional spectrogram을 모델링하기 어렵고, temporal upsampling에 대한 추가적인 속도 개선의 여지가 남아있음iSTFTNet2Temporal, spectral structure를 각각 모델링하기 위해 1D-2D CNN을 활용해 iSTFTNet을 개선Few-frequency space에서 conversion 이후 frequency upsampling을 수행하는 2D CNN을 ..
Paper/Vocoder
2024. 6. 26. 09:23
반응형