
VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech SynthesizersText-to-Speech를 위해 language modeling을 활용할 수 있음VALL-ENeural audio codec에서 파생된 discrete code를 사용하여 training 된 language model기존의 continuous signal regression이 아닌 conditional language modeling으로 text-to-speech를 접근특히 in-context learning capability를 제공하여 unseen speaker를 3초 이내의 acoustic prompt를 통해 personalized speech를 합성 가능논문..

Efficient Neural Music GenerationMusicLM은 semantic, coarse acoustic, fine acoustic modeling을 통해 뛰어난 음악 생성 능력을 보여주고 있음BUT, MusicLM은 fine-grained acoustic token을 얻기 위해 많은 계산 비용이 필요함MeLoDy고품질의 음악 생성이 가능하면서 forward pass의 효율성을 개선한 LM-guided diffusion modelSemantic modeling을 위해 MusicLM을 inherit 하고 dual-path diffusion과 audio VAE-GAN을 사용하여 conditioning semantic token을 waveform으로 decoding특히 dual-path dif..

Textually Pretrained Speech Language ModelsSpeech language model은 textual supervision 없이 acoustic data 만을 처리하고 생성함Textually Warm Initialized Speech Transformer (TWIST)Pretrained textual languaga model의 warm-start를 사용하여 speech language model을 trainingParameter 수와 training data 측면에서 가장 큰 speech language model을 제시논문 (NeurIPS 2023) : Paper Link1. Introduction음성에는 단순한 textual context 이상의 정보가 포함되어 있지만..

AudioLM: A Language Modeling Approach to Audio Generation고품질 audio 생성을 위해 long-term consistency를 갖춘 language model을 활용할 수 있음AudioLMInput audio를 discrete token sequence에 mapping 하고 해당 representation space에서 audio 생성을 language modeling으로 cast 함Audio에 pre-train 된 masked language model의 discretized activation을 사용하여 neural audio codec의 long-term structure와 discrete code를 capture논문 (TASLP 2023) : Pape..

MusicLM: Generating Music From Text주어진 text description으로부터 high-fidelity의 음악을 생성하는 Language Model을 구성할 수 있음MusicLMConditional music generation process를 hierarchical sequence-to-sequence modeling으로 cast추가적으로 music-text pair를 가진 MusicCaps dataset을 공개논문 (Google Research 2023) : Paper Link1. IntroductionConditional neural audio generation은 text-to-speech와 lyrics-conditioned music generation, MIDI s..

Pengi: An Audio Language Model for Audio TasksAudio domain에서 사용되는 language model에는 Audio Captioning이나 Audio Question Answering과 같은 open-ended task를 처리하는 기능이 부족함Pengi모든 audio task를 text generation task로 framing 하고 transfer learning을 적용하는 audio language modelText encoder와 audio encoder는 continuous embedding sequence로 각각의 input을 represent 하고, 얻어진 두 sequence는 pre-trained frozen language model을 promp..