일본 슈게이즈/드림팝 가이드 듣는 사람만 듣는(?) 마이너한 장르지만, 찰랑거리는 소녀감성에서부터 파괴적인 블랙게이즈까지, 영미권과는 완전히 다른 일본 슈게이즈 만의 고유한 매력이 있습니다. 하지만 생각보다 탄탄한 일본 슈게이즈씬을 무작정 파고들기에는 쉽지 않습니다. 그래서 를 통해 그런 입문자들의 부담을 줄이고 장르의 매력에 쉽게 빠져들 수 있도록 하려고 합니다. + 보다 자세한 설명을 담은 일본 슈게이즈/드림팝 설명서도 많은 관심바랍니다.https://randomsampling.tistory.com/553 [Guide] 일본 슈게이즈를 찾아서: 태동기부터 오늘날까지일본 슈게이즈를 찾아서: 태동기부터 오늘날까지 진짜들만 찾아 듣던 시절을 지나 어느새 마이너들의 왕이 되어버린 일본 슈게이즈. 두터운 소음..
Hierarchical Diffusion Models for Singing Voice Neural Vocoder Pitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움 서로 다른 sampling rate에 대한 multiple diffusion model을 도입 HPG (Hierarchical Diffusion Model + PriorGrad) Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성 다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성 논문 (ICASS..
Attention-based Neural Network for End-to-End Music SeparationEnd-to-End separation은 speech separation 분야에서 우수한 성능을 보였지만 music separation에서는 아직 접목되지 않음Sampling rate가 높은 dual channel data인 음악 신호를 모델링하기 위한 적절한 방법이 필요Attention-based End-to-End Music Separation멜로디, 톤과 같은 음악의 장기적인 특성을 캡처하기 위한 densely connected U-NetSeparation module에 multi-head attention과 dual-path transformer를 적용논문 (CAAI 2023) : Pap..
On Loss Functions and Evaluation Metrics For Music Source Separation Music source separation을 위해 어떤 loss function이 효과적인 분리를 제공하는지 조사 대표적인 Audio source separation loss들을 포함한 벤치마킹 평가 Signal-to-Distortion ratio를 대체할 수 있는 평가 지표를 조사 논문 (ICASSP 2022) : Paper Link 1. Introduction Music source separation은 혼합된 오디오 신호에서 원래 신호를 복구하는 것을 목표로 함 대부분의 Music source separation은 time-frequency domain에서 동작하는 회귀모델을 ..
FC-U$^{2}$-Net: A Novel Deep Neural Network for Singing Voice Separation 혼합된 음악 신호에서 보컬과 반주(accompainment)를 분리하는 가창 음성 분리를 위한 신경망 FC-U$^{2}$-Net 주파수 축을 따라 Time-invariant fully connected layer가 추가된 2단계 중첩 U-Net 구조 Local/Global contextual information 및 주파수 축에 대한 음성 신호의 장거리 상관관계를 캡처 깨끗한 보컬 분리를 위한 ratio mask, binary mask를 결합한 loss function의 사용 논문 (TASLP 2022) : Paper Link 1. Introduction 가창 음성 분리(Si..
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks Style transfer의 개념을 빌린 Generative Adversarial Network (GAN)을 위한 generator architecture High level attributes와 stochastic variation에 대한 unsupervised separation을 학습하여 이미지 합성에 대한 scale-specific control을 제공 StyleGAN 기존의 distribution quality metric에 대해 SOTA 성능을 달성 더 나은 interpolation property 및 latent factor variation에 ..
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Singing Voice Synthesis (SVS)는 음향 feature 재구성을 위해 간단한 Loss나 GAN을 활용함 각각의 방식은 over-smoothing 문제와 불안정한 학습과정으로 인해 부자연스러운 음성을 만들어냄 DiffSinger Diffusion probabilistic 모델 기반의 SVS용 음향 모델 조건부 분포 하에서 노이즈를 mel-spectrogram으로 반복적으로 변환하는 parameterized Markov chain Variational bound를 최적화함으로써 안정적이고 자연스러운 음성을 합성 논문 (AAAI 2022) : Paper Link 1. I..
Fast and Accurate Model Scaling 일반적인 CNN에서 width, depth, resolution 등을 scaling 하여 더 나은 representational power를 부여할 수 있음 기존의 scaling 방식은 accuracy와 FLOP의 상호작용에 초점을 맞추고 있음 Fast Compound Scaling Scaling 전략은 parameter 수, activation, runtime에 대해 각각 다른 영향을 미침 Width를 확장하는 대신 depth, resolution을 더 작은 범위로 scaling 하는 fast compound scaling 방식 제시 논문 (CVPR 2021) : Paper Link 1. Introduction CNN은 GPU, TPU와 같은 고..
CompOFA: Compound Once-For-All Networks for Faster Multi-Platform Deployment Once-For-All (OFA)는 Neural Architecture Search (NAS)에서 한 번에 여러 모델을 학습시킬 수 있는 방식을 제안함 OFA를 적용하더라도 NAS 비용은 여전히 높음 CompOFA Accuracy-latency Pareto frontier에 가까운 모델로 search 범위를 제한 더 작은 search space를 구성하기 위한 모델 magnitude 간의 compound relationship 파악 논문 (ICRL 2021) : Paper Link 해당 논문의 Baseline : Once-For-All (OFA) 리뷰 1. Introd..
