NAS-TasNet: Neural Architecture Search for Time-Domain Speech Separation Fully convolutional time-domain network인 Conv-TasNet은 speech separation에서 많이 사용되어 왔음 Conv-TasNet의 성능을 극대화하기 위해 Neural Architecture Search를 도입할 수 있음 NAS-TasNet Conv-TasNet의 search space를 구축하기 위한 candidate operation의 정의 최적의 separation module 구조를 결정하기 위한 gradient descent / reinforcement learning를 활용한 두 가지 search strategy 활용 균형..
Diffusion-Based Generative Speech Source Separation Source separation을 위해 Stochastic Differential Equation을 활용할 수 있음 DiffSep 분리된 source에서 시작해 mixture를 중심으로 하는 Gaussian 분포로 수렴하는 continuous time diffusion-mixing proces를 활용 Diffusion-mixing process의 score function에 대한 marginal probability를 근사하는 neural network를 훈련 Neural network를 활용하여 mixture에서 source를 점진적으로 분리하는 reverse-time SDE를 solve 논문 (ICASSP 2..
Hybrid Transformers for Music Source Separation Music source separation에서 long range contextual information나 local acoustic feature는 유용하게 사용되는 정보임 Hybrid Transformer Demucs (HT Demucs) Hybrid Demucs 기반의 hybrid temporal/spectral bi-U-Net 구조 Innermost layer를 Transformer Encoder로 대체 하나의 domain에 대한 self-attention과 여러 domain 간의 cross-attention을 활용 논문 (ICASSP 2023) : Paper Link 1. Introduction Music S..