선정 기준 : 작성자 마음대로 뽑습니다. 1997년도 앨범 결산 1. 개인적인 추천 앨범 The Promise Ring - : 캐치함과 불안한 이모(Emo)적 감수성이 공존하는 달콤씁쓸한 90년대 이모 팝 보석입니다. 미드웨스트 이모에 기반을 둔 센티멘탈한 기타 아르페지오는 오래전 여름날의 햇빛처럼 밝게 타오르며 아련한 향수를 불러일으킵니다. The Promise Ring - 'Red & Blue Jeans' 2. 올해의 국내 싱글 델리스파이스 - '챠우챠우' : 델리스파이스의 대표곡이자 어쩌면 전국민의 뇌리에 각인되어 있을 기막힌 도입부를 품고 있는 싱글입니다. 종종 The Cure의 'Disintegration'과 닮았다는 논란이 있기도 하지만, 분명한 것은 '챠우챠우'가 없었다면 지금의 한국 인디록..
MusicLM: Generating Music From Text 주어진 text description으로부터 high-fidelity의 음악을 생성하는 Language Model을 구성할 수 있음 MusicLM Conditional music generation process를 hierarchical sequence-to-sequence modeling으로 cast 추가적으로 music-text pair를 가진 MusicCaps dataset을 공개 논문 (Google Research 2023) : Paper Link 1. Introduction Conditional neural audio generation은 text-to-speech와 lyrics-conditioned music generation,..
nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-Shot Multi-Speaker Text-to-Speech Multi-speaker text-to-speech를 활용하기 위해서는 어려움이 많음 nnSpeech Fine-tuning 없이 하나의 adpatation utterance만을 사용하여 새로운 speaker voice를 합성할 수 있는 zero-shot multi-speaker 모델 Speaker-guided conditional vairational autoencoder를 활용하여 speaker, content information을 모두 포함하는 variable $Z$를 생성 Latent variable $Z$의 분포..
선정 기준 : 작성자 마음대로 뽑습니다. 1996년도 앨범 결산 1. 개인적인 추천 앨범 Sunny Day Service - : Sunny Day Service의 세번째 앨범이자 매력적인 시부야계(Shibuya-kei) 앨범입니다. 나른한 기타와 벚꽃처럼 흩날리는 건반은 마치 봄의 전령처럼 앨범 아트 속 이미지를 완벽하게 재현해냅니다. Sunny Day Service - 'あじさい' 2. 올해의 국내 싱글 언니네이발관 - '푸훗' : 이석원의 블러핑이 만들어낸 거대한 스노우볼은 90년대 한국 음악사의 큰 변곡점을 만들어 냈습니다. 특히 '푸훗'에서 보여준 언니네이발관의 캐치한 얼터너티브 사운드는, 이후 메탈에 점령된 홍대를 무너뜨릴 인디 1세대의 첫 발화점이 되었습니다. 언니네이발관 - '푸훗' 3. 올..
Pengi: An Audio Language Model for Audio Tasks Audio domain에서 사용되는 language model에는 Audio Captioning이나 Audio Question Answering과 같은 open-ended task를 처리하는 기능이 부족함 Pengi 모든 audio task를 text generation task로 framing 하고 transfer learning을 적용하는 audio language model Text encoder와 audio encoder는 continuous embedding sequence로 각각의 input을 represent 하고, 얻어진 두 sequence는 pre-trained frozen language model을 p..
선정 기준 : 작성자 마음대로 뽑습니다. 1995년도 앨범 결산 1. 개인적인 추천 앨범 Rancid - : Rancid의 최고작이자 90년대의 상징적인 펑크 앨범 중 하나입니다. 앨범에 가득 찬 에너지와 군더더기 없이 명료한 기타가 만들어내는 중독성은 성공적인 펑크 앨범의 기본 원칙을 상기시켜 줍니다. Rancid - 'Roots Radical' 2. 올해의 국내 싱글 더 클래식 - '여우야' : 김광진의 담백한 보컬을 기반으로 조동익, 정원영 등의 탄탄한 지원사격을 더해 만들어낸 세련된 싱글입니다. 유리처럼 매끄러운 선율과 순수한 노랫말의 조합은, 전작 '마법의 성'의 짙은 그림자 속에서도 큰 성공을 안겨주었습니다. 더 클래식 - '여우야' 3. 올해의 국내 앨범 패닉 - : 젊음의 반항기로 무장한 ..
SC-GlowTTS: An Efficient Zero-Shot Multi-Speaker Text-to-Speech Model Unseen speaker에 대한 similarity를 향상하는 zero-shot text-to-speech 모델이 필요함 SC-GlowTTS Flow-based decoder를 기반으로 speaker-conditional architecture를 도입 Text encoder로써 dilated residual convolutional-based encoder, gated convolutional-based encoder, transformer-based enocoder를 비교 추가적으로 text-to-speech 모델을 통해 예측된 spectrogram에 대해 GAN-based v..
AudioGen: Textually Guided Audio Generation Text-to-Audio 생성에는 몇 가지 어려움이 있음 - 동시에 말하는 speaker를 분리하는 것과 같이 object를 구별하는 것이 어려움 - Scarce text annotation은 모델의 확장을 어렵게 함 - 고품질 audio 합성을 위해서는 높은 sampling rate가 필요하므로 sequence가 길어짐 AudioGen Learnt discrete audio representation을 기반으로 동작하는 autoregressive 모델 다양한 audio sample을 mix 하여 모델이 source 분리를 internally learn 하는 augmentation을 도입 빠른 추론을 위해 multi-strea..
Simple and Controllable Music Generation Conditional music generation을 위해 Language Model (LM)을 도입 MusicGen Token interleaving pattern을 활용하는 single-stage transformer LM으로 구성하여 cascading한 model 구성을 회피 Textual description이나 melodic feature를 condition으로 하여 고품질 음성을 생성 가능 논문 (NeurIPS 2024) : Paper Link 1. Introduction Text-to-Music은 text description이 주어지면 그에 해당하는 음악을 생성하는 작업 일반적으로 음악을 생성하는 것은 long-ran..