FC-U$^{2}$-Net: A Novel Deep Neural Network for Singing Voice Separation 혼합된 음악 신호에서 보컬과 반주(accompainment)를 분리하는 가창 음성 분리를 위한 신경망 FC-U$^{2}$-Net 주파수 축을 따라 Time-invariant fully connected layer가 추가된 2단계 중첩 U-Net 구조 Local/Global contextual information 및 주파수 축에 대한 음성 신호의 장거리 상관관계를 캡처 깨끗한 보컬 분리를 위한 ratio mask, binary mask를 결합한 loss function의 사용 논문 (TASLP 2022) : Paper Link 1. Introduction 가창 음성 분리(Si..
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks Style transfer의 개념을 빌린 Generative Adversarial Network (GAN)을 위한 generator architecture High level attributes와 stochastic variation에 대한 unsupervised separation을 학습하여 이미지 합성에 대한 scale-specific control을 제공 StyleGAN 기존의 distribution quality metric에 대해 SOTA 성능을 달성 더 나은 interpolation property 및 latent factor variation에 ..
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Singing Voice Synthesis (SVS)는 음향 feature 재구성을 위해 간단한 Loss나 GAN을 활용함 각각의 방식은 over-smoothing 문제와 불안정한 학습과정으로 인해 부자연스러운 음성을 만들어냄 DiffSinger Diffusion probabilistic 모델 기반의 SVS용 음향 모델 조건부 분포 하에서 노이즈를 mel-spectrogram으로 반복적으로 변환하는 parameterized Markov chain Variational bound를 최적화함으로써 안정적이고 자연스러운 음성을 합성 논문 (AAAI 2022) : Paper Link 1. I..
Fast and Accurate Model Scaling 일반적인 CNN에서 width, depth, resolution 등을 scaling 하여 더 나은 representational power를 부여할 수 있음 기존의 scaling 방식은 accuracy와 FLOP의 상호작용에 초점을 맞추고 있음 Fast Compound Scaling Scaling 전략은 parameter 수, activation, runtime에 대해 각각 다른 영향을 미침 Width를 확장하는 대신 depth, resolution을 더 작은 범위로 scaling 하는 fast compound scaling 방식 제시 논문 (CVPR 2021) : Paper Link 1. Introduction CNN은 GPU, TPU와 같은 고..
CompOFA: Compound Once-For-All Networks for Faster Multi-Platform Deployment Once-For-All (OFA)는 Neural Architecture Search (NAS)에서 한 번에 여러 모델을 학습시킬 수 있는 방식을 제안함 OFA를 적용하더라도 NAS 비용은 여전히 높음 CompOFA Accuracy-latency Pareto frontier에 가까운 모델로 search 범위를 제한 더 작은 search space를 구성하기 위한 모델 magnitude 간의 compound relationship 파악 논문 (ICRL 2021) : Paper Link 해당 논문의 Baseline : Once-For-All (OFA) 리뷰 1. Introd..
FastSpeech: Fast, Robust and Controllable Text to Speech 기존의 Text-to-Speech (TTS) 모델은 text에서 mel-spectrogram을 생성한 다음, WaveNet과 같은 vocoder를 사용해 mel-spectrogram에서 음성을 합성함 End-to-end TTS 모델은 추론 속도가 느리고 합성된 음성이 robust 하지 않고, controllability (voice speed, prosody control)가 떨어짐 FastSpeech Mel-spectrogram을 병렬로 생성하는 transformer 기반 feed-forward network Phoneme duration 예측을 위해 encoder-decoder 기반 teacher 모..