VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis가사와 악보로부터 가창 음성을 직접 생성하는 End-to-End Singing Voice Synthesis (SVS) 모델Normalizing flow 기반 VAE를 채택한 End-to-End Text-to-Speech (TTS) 모델인 VITS를 활용VISingerPhoneme-level 평균, 분산 대신 Length regulator, Frame prior network를 사용하여 노래의 음향 변화를 모델링F0 predictor를 통한 안정적인 가창 음성 합성리듬감 향상을 위한 Duration predictor의 수정논문 (ICAS..
일본 슈게이즈/드림팝 가이드 듣는 사람만 듣는(?) 마이너한 장르지만, 찰랑거리는 소녀감성에서부터 파괴적인 블랙게이즈까지, 영미권과는 완전히 다른 일본 슈게이즈 만의 고유한 매력이 있습니다. 하지만 생각보다 탄탄한 일본 슈게이즈씬을 무작정 파고들기에는 쉽지 않습니다. 그래서 를 통해 그런 입문자들의 부담을 줄이고 장르의 매력에 쉽게 빠져들 수 있도록 하려고 합니다. + (25.09.14.) 보다 자세한 설명을 담은 일본 슈게이즈/드림팝 설명서도 많은 관심바랍니다.https://randomsampling.tistory.com/553 [Guide] 일본 슈게이즈를 찾아서: 태동기부터 오늘날까지일본 슈게이즈를 찾아서: 태동기부터 오늘날까지 진짜들만 찾아 듣던 시절을 지나 어느새 마이너들의 왕이 되어버린 일본 ..
Hierarchical Diffusion Models for Singing Voice Neural VocoderPitch, loudness, pronunciation 같은 다양한 음악적 표현으로 인해 neural vocoder로 고품질의 가창 음성을 합성하는 것은 어려움서로 다른 sampling rate에 대한 multiple diffusion model을 도입HPG (Hierarchical Diffusion Model + PriorGrad)Lower sampling rate 모델은 pitch와 같은 저주파 요소를 합성다른 모델은 lower sampling rate와 acoustic feature를 기반으로 higher sampling rate waveform을 점진적으로 합성논문 (ICASSP 2023..
Attention-based Neural Network for End-to-End Music SeparationEnd-to-End separation은 speech separation 분야에서 우수한 성능을 보였지만 music separation에서는 아직 접목되지 않음Sampling rate가 높은 dual channel data인 음악 신호를 모델링하기 위한 적절한 방법이 필요Attention-based End-to-End Music Separation멜로디, 톤과 같은 음악의 장기적인 특성을 캡처하기 위한 densely connected U-NetSeparation module에 multi-head attention과 dual-path transformer를 적용논문 (CAAI 2023) : Pap..
On Loss Functions and Evaluation Metrics For Music Source SeparationMusic source separation을 위해 어떤 loss function이 효과적인 분리를 제공하는지 조사대표적인 Audio source separation loss들을 포함한 벤치마킹 평가Signal-to-Distortion ratio를 대체할 수 있는 평가 지표를 조사논문 (ICASSP 2022) : Paper Link1. IntroductionMusic source separation은 혼합된 오디오 신호에서 원래 신호를 복구하는 것을 목표로 함대부분의 Music source separation은 time-frequency domain에서 동작하는 회귀모델을 활용- Sou..
FC-U$^{2}$-Net: A Novel Deep Neural Network for Singing Voice Separation혼합된 음악 신호에서 보컬과 반주(accompainment)를 분리하는 가창 음성 분리를 위한 신경망FC-U$^{2}$-Net주파수 축을 따라 Time-invariant fully connected layer가 추가된 2단계 중첩 U-Net 구조Local/Global contextual information 및 주파수 축에 대한 음성 신호의 장거리 상관관계를 캡처깨끗한 보컬 분리를 위한 ratio mask, binary mask를 결합한 loss function의 사용논문 (TASLP 2022) : Paper Link1. Introduction가창 음성 분리(Singing Vo..
StyleGAN: A Style-Based Generator Architecture for Generative Adversarial NetworksStyle transfer의 개념을 빌린 Generative Adversarial Network (GAN)을 위한 generator architectureHigh level attributes와 stochastic variation에 대한 unsupervised separation을 학습하여 이미지 합성에 대한 scale-specific control을 제공StyleGAN기존의 distribution quality metric에 대해 SOTA 성능을 달성더 나은 interpolation property 및 latent factor variation에 대한 di..
DiffSinger: Singing Voice Synthesis via Shallow Diffusion MechanismSinging Voice Synthesis (SVS)는 음향 feature 재구성을 위해 간단한 Loss나 GAN을 활용함각각의 방식은 over-smoothing 문제와 불안정한 학습과정으로 인해 부자연스러운 음성을 만들어냄DiffSingerDiffusion probabilistic 모델 기반의 SVS용 음향 모델조건부 분포 하에서 노이즈를 mel-spectrogram으로 반복적으로 변환하는 parameterized Markov chainVariational bound를 최적화함으로써 안정적이고 자연스러운 음성을 합성논문 (AAAI 2022) : Paper Link1. Introduct..
Fast and Accurate Model Scaling일반적인 CNN에서 width, depth, resolution 등을 scaling 하여 더 나은 representational power를 부여할 수 있음기존의 scaling 방식은 accuracy와 FLOP의 상호작용에 초점을 맞추고 있음Fast Compound ScalingScaling 전략은 parameter 수, activation, runtime에 대해 각각 다른 영향을 미침Width를 확장하는 대신 depth, resolution을 더 작은 범위로 scaling 하는 fast compound scaling 방식 제시논문 (CVPR 2021) : Paper Link1. IntroductionCNN은 GPU, TPU와 같은 고성능 hardw..
