Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder Unified Source-Filter GAN (USFGAN)은 source filter 이론을 도입하여 높은 음성 품질과 pitch 제어를 가능하게 함 USFGAN은 높은 temporal resolution으로 인해 높은 계산 비용을 가짐 Source-Filter HiFi-GAN HiFi-GAN에 source filter 이론을 도입한, 빠르고 pitch 제어가 가능한 neural vocoder Source excitation information에 resonance filter를 계층적으로 conditioning 논문 (ICASSP 2023) : Paper ..
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Generative Adversarial Network (GAN)을 활용한 음성 합성은 autoregressive에 비해 낮은 품질을 보임 하지만 GAN을 활용하면 sampling과 메모리 효율성을 향상할 수 있음 HiFi-GAN 다양한 period를 가지는 sinusoidal pattern을 모델링 Autoregressive 모델보다 더 빠르고 고품질의 음성을 합성 논문 (NeurIPS 2020) : Paper Link 1. Introduction 대부분의 음성 합성 모델은 two-stage 구조를 가짐 Text로 부터 mel-spectrog..
VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis 가사와 악보로부터 가창 음성을 직접 생성하는 End-to-End Singing Voice Synthesis (SVS) 모델 Normalizing flow 기반 VAE를 채택한 End-to-End Text-to-Speech (TTS) 모델인 VITS를 활용 VISinger Phoneme-level 평균, 분산 대신 Length regulator, Frame prior network를 사용하여 노래의 음향 변화를 모델링 F0 predictor를 통한 안정적인 가창 음성 합성 리듬감 향상을 위한 Duration predictor의 수정 논..
Hierarchical Diffusion Models for Singing Voice Neural Vocoder Pitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움 서로 다른 sampling rate에 대한 multiple diffusion model을 도입 HPG (Hierarchical Diffusion Model + PriorGrad) Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성 다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성 논문 (ICASS..
Attention-based Neural Network for End-to-End Music Separation End-to-End separation은 speech separation 분야에서 우수한 성능을 보였지만 music separation에서는 아직 접목되지 않음 Sampling rate가 높은 dual channel data인 음악 신호를 모델링하기 위한 적절한 방법이 필요 Attention-based End-to-End Music Separation 멜로디, 톤과 같은 음악의 장기적인 특성을 캡처하기 위한 densely connected U-Net Separation module에 multi-head attention과 dual-path transformer를 적용 논문 (CAAI 2023)..
On Loss Functions and Evaluation Metrics For Music Source Separation Music source separation을 위해 어떤 loss function이 효과적인 분리를 제공하는지 조사 대표적인 Audio source separation loss들을 포함한 벤치마킹 평가 Signal-to-Distortion ratio를 대체할 수 있는 평가 지표를 조사 논문 (ICASSP 2022) : Paper Link 1. Introduction Music source separation은 혼합된 오디오 신호에서 원래 신호를 복구하는 것을 목표로 함 대부분의 Music source separation은 time-frequency domain에서 동작하는 회귀모델을 ..