티스토리 뷰
반응형
MusicLM: Generating Music From Text
- 주어진 text description으로부터 high-fidelity의 음악을 생성하는 Language Model을 구성할 수 있음
- MusicLM
- Conditional music generation process를 hierarchical sequence-to-sequence modeling으로 cast
- 추가적으로 music-text pair를 가진 MusicCaps dataset을 공개
- 논문 (Google Research 2023) : Paper Link
1. Introduction
- Conditional neural audio generation은 text-to-speech와 lyrics-conditioned music generation, MIDI seqeunce synthesis 등 다양한 범위를 포괄함
- 이때 대부분의 task는 conditioning signal과 해당 audio output 간의 temporal alignment를 통해 수행됨
- 최근에는 text-to-image와 같이 coarse caption에서 audio를 생성하는 모델들이 등장하고 있음
- 대표적으로 AudioLM은 audio generation을 위해 language modeling을 도입하여 high-fidelity의 음성을 생성함
- BUT, 음악의 long-term structure와 다양성 반영이 어렵고, 고품질 audio-text data의 부족으로 인한 한계가 있음 - 특히 audio에 대한 text description은 아래의 이유로 사용하기 어려움
- Acoustic scene이나 음악의 salient characteristic을 few word 만으로 capture 하는 것은 어렵기 때문
- Audio는 sequence-wide caption을 weaker level annotation으로 만드는 temporal dimension에 따라 structure 되기 때문
-> 그래서 text description으로부터 고품질의 음악을 생성하는 audio language model인 MusicLM을 제안
- MusicLM
- AudioLM의 multi-stage autoregressive modeling을 generative component에 text conditioning을 통합
- Paired data scarcity 문제를 해결하기 위해, 음악과 해당 text description을 embedding space에 project하는 joint music-text model인 MuLan을 채택
- 해당 shared embedding을 통해 caption 없이 audio-only corpora에 대해 training이 가능 - 추가적으로 evaluation data 부족 문제를 해결하기 위해, 고품질 music caption dataset인 MusicCaps를 공개
< Overall of MusicLM >
- Text conditioning signal에 faithful하면서 고품질의 음악을 생성하는 audio language model
- Text prompt에 따라 합성되는 melody와 같은 다른 conditioning signal로 확장
- Text-to-Music generation을 위한 evaluation dataset인 MusicCaps를 공개
2. Method
- Representation and Tokenization of Audio and Text
- Conditional autoregressive music generation에 필요한 audio representation을 추출하기 위해 3가지 모델을 사용함
- AudioLM을 따라,
- SoundStream의 self-supervised audio representation을 acoustic token으로 사용하고
- w2v-BERT를 semantic token으로 사용하여 long-term coherent generation을 지원
- MuLan music embedding은 training 중에 conditioning을 represent 하기 위해 사용되고, 추론 시에는 MuLan text embedding을 사용함
- 위 3가지 모델은 independently pre-train된 다음 frozen 되어 sequence-to-sequence modeling을 위한 discrete audio/text representation을 제공
- AudioLM을 따라,
- SoundStream
- 24kHz monophonic audio에 480 striding factor를 사용하는 SoundStream 모델을 사용하여 50kHz embedding을 생성
- 해당 embedding의 quantization은 각각 vocabulary size가 1024인 12개의 quantizer를 가지는 Residual Vector Quantization (RVQ)에 의해 training 됨
- 결과적으로 6kbps의 bitrate를 가지는 audio가 생성됨
- 여기서 오디오의 1초는 600 token으로 represent 되는 acoustic token $A$
- w2v-BERT
- 600M의 parameter를 가지는 w2v-BERT의 masked-language-modeling (MLM) module의 intermediate layer를 사용함
- Pre-train과 freezing 이후, 7번째 layer에서 embedding을 추출하고 embedding에 대해 학습된 $k$-means의 centroid를 사용하여 quantization을 수행함
- 1024개의 cluster와 25kHz의 sampling rate를 사용하여, 25개의 semantic token $S$를 생성
- MuLan
- MuLan의 audio embedding network에서 target audio sequence의 representation을 추출
- 해당 representation은 continuous 하고 Transformer-based autoregressive model에서 conditioning signal로 사용됨 - MuLan은
- Longer audio sequence를 처리해야 하기 때문에 1-second stride를 사용하여 10-second window에서 audio embedding을 계산하고 resulting embedding을 평균함
- 이후 vocabulary size가 1024인 12개의 vector quantizer를 통해 RVQ를 적용하여 resulting embedding을 discretize
- 이를 통해 audio sequence에 대한 12개의 MuLan audio token $M_{A}$를 생성함
- 추론 시에는 text prompt에서 추출된 MuLan text embedding을 condition으로 사용하고, audio embedding에 사용된 것과 동일한 RVQ로 이를 quantize 하여 12개의 token $M_{T}$를 얻음
- Training 시 $M_{A}$에 대한 conditioning은 2가지 장점이 있음
- Text caption의 필요성에 제약받지 않으므로 training data를 더 쉽게 scale 할 수 있음
- Contrastive loss를 활용하는 MuLan 모델을 통해 noisy text description에 대한 robustness를 향상 가능
- MuLan의 audio embedding network에서 target audio sequence의 representation을 추출
- Hierarchical Modeling of Audio Representations
- 앞서 얻어진 discrete audio representation을 AudioLM과 결합하여 text-conditioned music generation을 수행
- MusicLM은 각 stage가 separate decoder-only Transformer에 의해 autoregressively modeling 되는 hierarchical sequence-to-sequence modeling을 도입
- First stage는 semantic modeling stage로써
- 분포 $p(S_{t}|S_{<t}, M_{A})$를 modeling 하여 MuLan audio token에서 semantic token $S$로의 mapping을 학습
- 이때 $t$는 time step에 해당하는 sequence position - Second stage는 acoustic modeling stage로써
- Acoustic token $A_{q}$가 MuLan audio token과 semantic token 모두에 condition 되어 예측을 수행하고
- 분포 $p(A_{t}|A_{<t},S,M_{A})$를 modeling 함
- First stage는 semantic modeling stage로써
- Long token sequence를 피하기 위해 AudioLM은 acoustic modeling stage를 coarse/fine modeling stage로 나누어서 수행하고, 마찬가지로 MusicLM도 동일한 전략을 채택
- Coarse stage는 SoundStream RVQ output의 처음 4개 level을 modeling 하고, fine stage는 나머지 8개 level을 modeling 함
- MusicLM은 각 stage가 separate decoder-only Transformer에 의해 autoregressively modeling 되는 hierarchical sequence-to-sequence modeling을 도입
- Models
- MusicLM은 AudioLM의 semantic, acoustic stage를 modeling 하기 위해 decoder-only Transformer를 사용함
- 24개 layer, 16개 attention head, 1024 dimensional embedding, 4096 dimensional feed-forward layer, 0.1 dropout, relative positional embedding으로 구성됨
- 각 stage 당 총 430M parameter 수를 가짐
3. Experiments
- Settings
- Dataset : MusicCaps
- Comparisons : Mubert, Riffusion
- Results
- Comparison to Baselines
- FAD 측면에서 MusicLM은 Mubert, Riffusion 보다 더 나은 성능을 보임
- KLD, MCC 측면에서도 MusicLM은 가장 높은 점수를 얻음
- 결과적으로 MusicLM은 다른 모델들보다 text description에서 더 많은 information을 capture 할 수 있음
- Importance of Semantic Tokens
- MusicLM에서 semantic modeling을 제거하면 KLD, MCC가 저하되는 것으로 나타남
- 이 경우 KLD는 1.01에서 1.05로 증가하고 MCC는 0.51에서 0.49로 감소
- Information Represented by Audio Tokens
- MuLan text token과 semantic token을 fix 하여 acoustic modeling을 수행하는 경우, 동일한 장르와 멜로디 등을 share 하는 경향이 나타남
- MuLan text token만 fix 하는 경우, text description과 coherent 하면서 더 다양한 멜로디를 합성하는 것으로 나타남
- Memorization Analysis
- Semantic token prompt의 length가 0~10초로 변할 때 exact match의 비율은 항상 매우 작게 유지됨
- 낮은 matching score는 low level token diversity에 해당함
- Melody Conditioning
- MusicLM에 대해 melody condition을 적용하기 위해, RVQ를 사용하여 melody embedding을 quantize 하고 resulting token sequence를 MuLan audio token $M_{A}$와 concatenate 함
- 이러한 conditioning을 통해 MusicLM은 text description을 adhere 하면서 audio clip에 포함된 melody를 따르는 음악을 생성할 수 있음
- Long Generation and Story Mode
- MusicLM은 temporal dimension에 대해 autoregressive 하므로 long sequence를 생성할 수 있음
- 추가적으로 시간이 지남에 따라 text description을 변경하면서 long audio sequence를 생성하는 stroy mode로 확장할 수 있음
반응형
'Paper > Language Model' 카테고리의 다른 글
[Paper 리뷰] Textually Pretrained Speech Language Models (0) | 2024.03.31 |
---|---|
[Paper 리뷰] AudioLM: A Language Modeling Approach to Audio Generation (0) | 2024.03.10 |
[Paper 리뷰] Pengi: An Audio Language Model for Audio Tasks (0) | 2024.03.07 |
[Paper 리뷰] AudioGen: Textually Guided Audio Generation (0) | 2024.03.05 |
[Paper 리뷰] Simple and Controllable Music Generation (0) | 2024.03.04 |
댓글