선정 기준 : 작성자 마음대로 뽑습니다. 2001년도 앨범 결산 1. 개인적인 추천 앨범 advantage Lucy - : 일본에서는 종종 시부야계와 트위팝의 한 갈래를 Neo-Acoustic이라고 부르기도 합니다. 특히 advatage Lucy의 컴필레이션 앨범인 는 달콤하고 캐치한 싱글들만을 엄선하여 리스너에게 행복으로 여정을 제공합니다. advantage Lucy - 'Red Bicycle' 2. 올해의 국내 싱글 토이 - '좋은 사람' : 이후의 이런저런 논란은 차치하고, 유희열 특유의 역설적인 곡-가사 구성이 빛을 발한 대표적인 싱글입니다. 특히 밝고 경쾌한 전개에 대비되는 찌질한 짝사랑의 가사가 묘한 재미와 중독성을 자아냅니다. 토이 - '좋은 사람' 3. 올해의 국내 앨범 크라잉 넛 - : ..
UniSyn: And End-to-End Unified Model for Text-to-Speech and Sining Voice Synthesis Text-to-Speech와 Singing Voice Synthesis를 단일 시스템으로 통합하는 기존의 방법들은, 동일한 화자로 제한되거나 cascaded model에 의존하는 한계가 있음 UniSyn 음성 합성과 가창 합성을 통합한 end-to-end 모델 Speaker와 style을 condition으로 사용하는 Multi-Conditional Variational AutoEncoder 구조 Timbre와 style의 disentangle을 위한 supervised guided-VAE와 Wasserstein distance 기반 timbre pertur..
Diffusion-Based Generative Speech Source Separation Source separation을 위해 Stochastic Differential Equation을 활용할 수 있음 DiffSep 분리된 source에서 시작해 mixture를 중심으로 하는 Gaussian 분포로 수렴하는 continuous time diffusion-mixing proces를 활용 Diffusion-mixing process의 score function에 대한 marginal probability를 근사하는 neural network를 훈련 Neural network를 활용하여 mixture에서 source를 점진적으로 분리하는 reverse-time SDE를 solve 논문 (ICASSP 2..
WaveGlow: A Flow-Based Generative Network for Speech Synthesis Flow-based network는 autoregression 없이 mel-spectrogram에서 고품질 음성을 합성할 수 있음 WaveGlow 고품질 음성 합성을 위해 Glow와 WaveNet의 아이디어를 활용 Training data의 likelihood를 최대화하여 training 단계를 간단하고 안정적으로 만듦 논문 (ICASSP 2019) : Paper Link 1. Introduction 효율적이고 고품질의 음성 합성에 대한 요구사항은 점차 증대되고 있음 음성 품질, latency에 대한 작은 변화도 customer experience와 preference에 큰 영향을 미치기 때문..
Hybrid Transformers for Music Source SeparationMusic source separation에서 long range contextual information나 local acoustic feature는 유용하게 사용되는 정보임Hybrid Transformer Demucs (HT Demucs)Hybrid Demucs 기반의 hybrid temporal/spectral bi-U-Net 구조Innermost layer를 Transformer Encoder로 대체 하나의 domain에 대한 self-attention과 여러 domain 간의 cross-attention을 활용논문 (ICASSP 2023) : Paper Link1. IntroductionMusic Source S..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Parallel text-to-speech 모델은 externel aligner의 guidance 없이 학습하기 어려움 Glow-TTS Externel aligner가 필요 없는 flow-based parallel text-to-speech 모델 Flow property와 dynamic programming을 결합한 monotonic alignment search의 도입 Hard monotonic alignment를 사용하면 robust한 생성이 가능하고 flow를 활용하면 빠르고 다양한 생성이 가능 논문 (NeurIPS 2020) : Paper Link 1. Int..
Diff-TTS: A Denoising Diffusion Model for Text-to-Speech Neural text-to-speech 모델은 여전히 자연스러운 합성과 architecture 효율성이 요구됨 Diff-TTS 주어진 text에 대해 denoising diffusion을 활용하여 noise signal을 mel-spectrogram으로 변환 Text를 condition으로 하는 mel-spectrogram 분포를 학습하기 위한 likelihood-based optimization 추론 속도 향상을 위한 accelerated sampling의 도입 논문 (INTERSPEECH 2021) : Paper Link 1. Introduction 대부분의 neural text-to-speech (..
LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-SpeechText-to-Speech 모델은 효율적인 일상 활용을 위해 edge device에 배포하는 것이 요구됨Diffusion probabilistic model 은 다른 생성 모델들에 비해 안정적으로 학습되고 parameter 효율성이 높음LightGradEdge device에서 TTS를 활용하기 위한 경량 diffusion probabilistic model 경량 U-Net diffusion decoder와 빠른 sampling, streaming inference를 통한 latency 감소논문 (ICASSP 2023) : Paper Link1. Introduction일상생활에서..
