NAS-TasNet: Neural Architecture Search for Time-Domain Speech Separation Fully convolutional time-domain network인 Conv-TasNet은 speech separation에서 많이 사용되어 왔음 Conv-TasNet의 성능을 극대화하기 위해 Neural Architecture Search를 도입할 수 있음 NAS-TasNet Conv-TasNet의 search space를 구축하기 위한 candidate operation의 정의 최적의 separation module 구조를 결정하기 위한 gradient descent / reinforcement learning를 활용한 두 가지 search strategy 활용 균형..
Diffusion-Based Generative Speech Source Separation Source separation을 위해 Stochastic Differential Equation을 활용할 수 있음 DiffSep 분리된 source에서 시작해 mixture를 중심으로 하는 Gaussian 분포로 수렴하는 continuous time diffusion-mixing proces를 활용 Diffusion-mixing process의 score function에 대한 marginal probability를 근사하는 neural network를 훈련 Neural network를 활용하여 mixture에서 source를 점진적으로 분리하는 reverse-time SDE를 solve 논문 (ICASSP 2..
Hybrid Transformers for Music Source Separation Music source separation에서 long range contextual information나 local acoustic feature는 유용하게 사용되는 정보임 Hybrid Transformer Demucs (HT Demucs) Hybrid Demucs 기반의 hybrid temporal/spectral bi-U-Net 구조 Innermost layer를 Transformer Encoder로 대체 하나의 domain에 대한 self-attention과 여러 domain 간의 cross-attention을 활용 논문 (ICASSP 2023) : Paper Link 1. Introduction Music S..
Attention-based Neural Network for End-to-End Music Separation End-to-End separation은 speech separation 분야에서 우수한 성능을 보였지만 music separation에서는 아직 접목되지 않음 Sampling rate가 높은 dual channel data인 음악 신호를 모델링하기 위한 적절한 방법이 필요 Attention-based End-to-End Music Separation 멜로디, 톤과 같은 음악의 장기적인 특성을 캡처하기 위한 densely connected U-Net Separation module에 multi-head attention과 dual-path transformer를 적용 논문 (CAAI 2023)..
On Loss Functions and Evaluation Metrics For Music Source Separation Music source separation을 위해 어떤 loss function이 효과적인 분리를 제공하는지 조사 대표적인 Audio source separation loss들을 포함한 벤치마킹 평가 Signal-to-Distortion ratio를 대체할 수 있는 평가 지표를 조사 논문 (ICASSP 2022) : Paper Link 1. Introduction Music source separation은 혼합된 오디오 신호에서 원래 신호를 복구하는 것을 목표로 함 대부분의 Music source separation은 time-frequency domain에서 동작하는 회귀모델을 ..
FC-U$^{2}$-Net: A Novel Deep Neural Network for Singing Voice Separation 혼합된 음악 신호에서 보컬과 반주(accompainment)를 분리하는 가창 음성 분리를 위한 신경망 FC-U$^{2}$-Net 주파수 축을 따라 Time-invariant fully connected layer가 추가된 2단계 중첩 U-Net 구조 Local/Global contextual information 및 주파수 축에 대한 음성 신호의 장거리 상관관계를 캡처 깨끗한 보컬 분리를 위한 ratio mask, binary mask를 결합한 loss function의 사용 논문 (TASLP 2022) : Paper Link 1. Introduction 가창 음성 분리(Si..