
AudioGen: Textually Guided Audio Generation Text-to-Audio 생성에는 몇 가지 어려움이 있음 - 동시에 말하는 speaker를 분리하는 것과 같이 object를 구별하는 것이 어려움 - Scarce text annotation은 모델의 확장을 어렵게 함 - 고품질 audio 합성을 위해서는 높은 sampling rate가 필요하므로 sequence가 길어짐 AudioGen Learnt discrete audio representation을 기반으로 동작하는 autoregressive 모델 다양한 audio sample을 mix 하여 모델이 source 분리를 internally learn 하는 augmentation을 도입 빠른 추론을 위해 multi-strea..

Simple and Controllable Music GenerationConditional music generation을 위해 Language Model (LM)을 도입MusicGenToken interleaving pattern을 활용하는 single-stage transformer LM으로 구성하여 cascading한 model 구성을 회피Textual description이나 melodic feature를 condition으로 하여 고품질 음성을 생성 가능논문 (NeurIPS 2024) : Paper Link1. IntroductionText-to-Music은 text description이 주어지면 그에 해당하는 음악을 생성하는 작업일반적으로 음악을 생성하는 것은 long-range seque..