선정 기준 : 작성자 마음대로 뽑습니다. 1993년도 앨범 결산 1. 개인적인 추천 앨범 Afghan Whigs - : 그런지가 맹위를 떨치던 당시 미국 얼터너티브 씬에서 Afghan Whigs는 그런지에 소울을 결합하며 가장 추악하고 노골적인 컨셉 앨범을 만들어냈습니다. 분노, 마약, 욕망 등으로 가득 찬 가사는 날카로운 보컬, 감정적인 기타와 결합되며 비신사적인 구렁텅이 속으로 리스너를 끌어내립니다. Afghan Whigs - 'Debonair' 2. 올해의 국내 싱글 부활 - '사랑할수록' : 절절한 김재기의 보컬과 그 색을 극대화하는 김태원의 작곡 능력이 최적으로 어우러진 곡입니다. 안타깝게도 보컬 김재기의 요절로 인해 '사랑할수록'은 정식 녹음되지 못한채 앨범에 실렸지만, 그 데모 버전만으로도 ..
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Generative Adversarial Network (GAN)를 사용하여 안정적이고 고품질의 waveform을 합성할 수 있음 MelGAN Mel-spectrogram inversion을 위해 GAN에 대한 architecture 수정과 간단한 training technique을 도입 더 적은 parameter 수와 빠른 추론 속도를 가지는 non-autoregressive 하고 fully convolutional 한 neural vocoder Conditional sequence 합성을 위한 general purpose discriminator 설계로 확장 가능 논문..
Meta-StyleSpeech: Multi-Speaker Adaptive Text-to-Speech Generation Text-to-Speech 모델은 주어진 speaker에서 나온 few audio sample 만을 사용하여 고품질 음성을 합성할 수 있어야 함 StyleSpeech 고품질 합성이 가능하고 새로운 speaker에 대해 효과적으로 adaptaion 하는 TTS 모델 Reference에서 추출된 style에 따라 text input의 gain과 bias를 align 하는 Style-Adaptive Layer Normalization을 도입 Meta-StyleSpeech 새로운 speaker에 대한 StyleSpeech의 adaptation을 향상하기 위해 style prototype으로 학..
FedSpeech: Federated Text-to-Speech with Continual Learning Federated text-to-speech는 여러 사용자의 음성을 device에 locally store 된 few audio sample과 합성하는 것을 목표로 함 Federated text-to-speech는 각 speaker에 대한 training sample이 거의 없고, sample이 각 local device에만 store 되어 있고, global model이 다양한 공격에 취약하다는 어려움이 있음 FedSpeech Gradual pruning mask를 사용하여 speaker tone을 preserving 하기 위해 parameter를 isolate 함 Task에서 얻은 knowled..
Lightweight and Interpretable Neural Modeling of an Audio Distortion Effect Using Hyperconditioned Differentiable Biquads Audio distortion effect를 모델링하기 위해 differentiable cacaded biquads를 사용할 수 있음 Hyperconditioned Differentiable Biquads Trainable Infinite Impulse Response (IIR) filter를 hyperconditioned case로 확장 Transformation은 distortion effect의 external parameter를 internal filter와 gain paramete..
ProsoSpeech: Enhancing Prosody with Quantized Vector Pre-training in Text-to-Speech Text-to-Speech에서 prosody 모델링을 위해서는 몇 가지 어려움이 있음 - 추출된 pitch에는 inevitable error가 포함되어 있어 prosody 모델링을 저해함 - Pitch, duration, energy와 같은 prosody의 다양한 특성은 서로 dependent 함 - Prosody의 high variability로 인해 prosody 분포를 fully shape 하기 어려움 ProsoSpeech Low-quality text와 speech data에 대해 pre-train 된 quantized latent vector를 도..
WaveFlow: A Compact Flow-based Model for Raw Audio Raw audio 합성을 위해 maximum likelihood를 활용하는 generative flow model을 구성할 수 있음 WaveFlow Dilated 2D convolution을 활용하여 1D waveform의 long-range structure를 capture 하고, expressive autoregressive function을 통해 local variation을 모델링 효율적인 합성을 위해 likelihood gap을 줄임 논문 (ICML 2020) : Paper Link 1. Introduction 기존의 autoregressive model은 raw audio에 대해 가장 높은 likelih..
선정 기준 : 작성자 마음대로 뽑습니다. 1992년도 앨범 결산 1. 개인적인 추천 앨범 Popsicle - : 시끄럽게 찢어지는 노이즈를 감싸는 달콤한 선율이 인상적인 스웨덴산 노이즈 팝 앨범입니다. 여름을 닮은 싱그러운 색감과 경쾌한 에너지는 언제나 기분 좋은 신선함을 리스너에게 전달합니다. Popsicle - 'Hey Princess' 2. 올해의 국내 싱글 서태지와 아이들 - '난 알아요' : 포크와 발라드를 위시로 한 기존의 양강체제는, 젊음의 혈기를 앞세운 댄스와 랩 앞에서 순식간에 무너졌습니다. 특히 당대의 모든 대중들을 홀린 악마의 음악(?) '난 알아요'는 서태지를 시대의 아이콘으로 등극시킨 일등공신 중 하나일 것 입니다. 서태지와 아이들 - '난 알아요' 3. 올해의 국내 앨범 서태지와..
WaveGrad: Estimating Gradients for Waveform Generation Score mathcing과 diffusion probabilistic model을 waveform generation에 활용할 수 있음 WaveGrad Data density의 gradient를 추정하는 waveform generation을 위한 conditional model Gaussian white noise에서 시작하여 mel-spectrogram에 따라 condition 된 gradient-based sampler를 활용 논문 (ICRL 2021) : Paper Link 1. Introduction Autorgressive 모델을 raw waveform 생성에서 활용할 수 있지만, sequenti..