티스토리 뷰

반응형

MusicLM: Generating Music From Text


  • 주어진 text description으로부터 high-fidelity의 음악을 생성하는 Language Model을 구성할 수 있음
  • MusicLM
    • Conditional music generation process를 hierarchical sequence-to-sequence modeling으로 cast
    • 추가적으로 music-text pair를 가진 MusicCaps dataset을 공개
  • 논문 (Google Research 2023) : Paper Link

1. Introduction

  • Conditional neural audio generation은 text-to-speech와 lyrics-conditioned music generation, MIDI seqeunce synthesis 등 다양한 범위를 포괄함
    • 이때 대부분의 task는 conditioning signal과 해당 audio output 간의 temporal alignment를 통해 수행
    • 최근에는 text-to-image와 같이 coarse caption에서 audio를 생성하는 모델들이 등장하고 있음
      - 대표적으로 AudioLM은 audio generation을 위해 language modeling을 도입하여 high-fidelity의 음성을 생성함
      - BUT, 음악의 long-term structure와 다양성 반영이 어렵고, 고품질 audio-text data의 부족으로 인한 한계가 있음
    • 특히 audio에 대한 text description은 아래의 이유로 사용하기 어려움
      1. Acoustic scene이나 음악의 salient characteristic을 few word 만으로 capture 하는 것은 어렵기 때문
      2. Audio는 sequence-wide caption을 weaker level annotation으로 만드는 temporal dimension에 따라 structure 되기 때문

-> 그래서 text description으로부터 고품질의 음악을 생성하는 audio language model인 MusicLM을 제안

 

  • MusicLM
    • AudioLM의 multi-stage autoregressive modeling을 generative component에 text conditioning을 통합
    • Paired data scarcity 문제를 해결하기 위해, 음악과 해당 text description을 embedding space에 project하는 joint music-text model인 MuLan을 채택
      - 해당 shared embedding을 통해 caption 없이 audio-only corpora에 대해 training이 가능
    • 추가적으로 evaluation data 부족 문제를 해결하기 위해, 고품질 music caption dataset인 MusicCaps를 공개

< Overall of MusicLM >

  • Text conditioning signal에 faithful하면서 고품질의 음악을 생성하는 audio language model
  • Text prompt에 따라 합성되는 melody와 같은 다른 conditioning signal로 확장
  • Text-to-Music generation을 위한 evaluation dataset인 MusicCaps를 공개

2. Method

- Representation and Tokenization of Audio and Text

  • Conditional autoregressive music generation에 필요한 audio representation을 추출하기 위해 3가지 모델을 사용
    • AudioLM을 따라,
      1. SoundStream의 self-supervised audio representation을 acoustic token으로 사용하고
      2. w2v-BERT를 semantic token으로 사용하여 long-term coherent generation을 지원
      3. MuLan music embedding은 training 중에 conditioning을 represent 하기 위해 사용되고, 추론 시에는 MuLan text embedding을 사용함
    • 3가지 모델은 independently pre-train된 다음 frozen 되어 sequence-to-sequence modeling을 위한 discrete audio/text representation을 제공
  • SoundStream
    • 24kHz monophonic audio에 480 striding factor를 사용하는 SoundStream 모델을 사용하여 50kHz embedding을 생성
    • 해당 embedding의 quantization은 각각 vocabulary size가 1024인 12개의 quantizer를 가지는 Residual Vector Quantization (RVQ)에 의해 training 됨
    • 결과적으로 6kbps의 bitrate를 가지는 audio가 생성됨
      - 여기서 오디오의 1초는 600 token으로 represent 되는 acoustic token $A$
  • w2v-BERT
    • 600M의 parameter를 가지는 w2v-BERT의 masked-language-modeling (MLM) module의 intermediate layer를 사용
    • Pre-train과 freezing 이후, 7번째 layer에서 embedding을 추출하고 embedding에 대해 학습된 $k$-means의 centroid를 사용하여 quantization을 수행함
    • 1024개의 cluster와 25kHz의 sampling rate를 사용하여, 25개의 semantic token $S$를 생성
  • MuLan
    • MuLan의 audio embedding network에서 target audio sequence의 representation을 추출
      - 해당 representation은 continuous 하고 Transformer-based autoregressive model에서 conditioning signal로 사용됨
    • MuLan은
      1. Longer audio sequence를 처리해야 하기 때문에 1-second stride를 사용하여 10-second window에서 audio embedding을 계산하고 resulting embedding을 평균함
      2. 이후 vocabulary size가 1024인 12개의 vector quantizer를 통해 RVQ를 적용하여 resulting embedding을 discretize
      3. 이를 통해 audio sequence에 대한 12개의 MuLan audio token $M_{A}$를 생성
    • 추론 시에는 text prompt에서 추출된 MuLan text embedding을 condition으로 사용하고, audio embedding에 사용된 것과 동일한 RVQ로 이를 quantize 하여 12개의 token $M_{T}$를 얻음
    • Training 시 $M_{A}$에 대한 conditioning은 2가지 장점이 있음
      1. Text caption의 필요성에 제약받지 않으므로 training data를 더 쉽게 scale 할 수 있음
      2. Contrastive loss를 활용하는 MuLan 모델을 통해 noisy text description에 대한 robustness를 향상 가능

Audio, Text Representation 추출을 위한 개별 모델

- Hierarchical Modeling of Audio Representations

  • 앞서 얻어진 discrete audio representation을 AudioLM과 결합하여 text-conditioned music generation을 수행
    • MusicLM은 각 stage가 separate decoder-only Transformer에 의해 autoregressively modeling 되는 hierarchical sequence-to-sequence modeling을 도입
      1. First stage는 semantic modeling stage로써
        - 분포 $p(S_{t}|S_{<t}, M_{A})$를 modeling 하여 MuLan audio token에서 semantic token $S$로의 mapping을 학습
        - 이때 $t$는 time step에 해당하는 sequence position
      2. Second stage는 acoustic modeling stage로써
        - Acoustic token $A_{q}$가 MuLan audio token과 semantic token 모두에 condition 되어 예측을 수행하고
        - 분포 $p(A_{t}|A_{<t},S,M_{A})$를 modeling 함
    • Long token sequence를 피하기 위해 AudioLM은 acoustic modeling stage를 coarse/fine modeling stage로 나누어서 수행하고, 마찬가지로 MusicLM도 동일한 전략을 채택
      - Coarse stage는 SoundStream RVQ output의 처음 4개 level을 modeling 하고, fine stage는 나머지 8개 level을 modeling 함

Overall of MusicLM

- Models

  • MusicLM은 AudioLM의 semantic, acoustic stage를 modeling 하기 위해 decoder-only Transformer를 사용
    • 24개 layer, 16개 attention head, 1024 dimensional embedding, 4096 dimensional feed-forward layer, 0.1 dropout, relative positional embedding으로 구성됨
    • 각 stage 당 총 430M parameter 수를 가짐

3. Experiments

- Settings

  • Dataset : MusicCaps
  • Comparisons : Mubert, Riffusion

- Results

  • Comparison to Baselines
    • FAD 측면에서 MusicLM은 Mubert, Riffusion 보다 더 나은 성능을 보임
    • KLD, MCC 측면에서도 MusicLM은 가장 높은 점수를 얻음
      - 결과적으로 MusicLM은 다른 모델들보다 text description에서 더 많은 information을 capture 할 수 있음

모델 성능 비교

  • Importance of Semantic Tokens
    • MusicLM에서 semantic modeling을 제거하면 KLD, MCC가 저하되는 것으로 나타남
    • 이 경우 KLD는 1.01에서 1.05로 증가하고 MCC는 0.51에서 0.49로 감소
  • Information Represented by Audio Tokens
    • MuLan text token과 semantic token을 fix 하여 acoustic modeling을 수행하는 경우, 동일한 장르와 멜로디 등을 share 하는 경향이 나타남
    • MuLan text token만 fix 하는 경우, text description과 coherent 하면서 더 다양한 멜로디를 합성하는 것으로 나타남
  • Memorization Analysis
    • Semantic token prompt의 length가 0~10초로 변할 때 exact match의 비율은 항상 매우 작게 유지됨
    • 낮은 matching score는 low level token diversity에 해당함

Memorization Results

  • Melody Conditioning
    • MusicLM에 대해 melody condition을 적용하기 위해, RVQ를 사용하여 melody embedding을 quantize 하고 resulting token sequence를 MuLan audio token $M_{A}$와 concatenate 함
    • 이러한 conditioning을 통해 MusicLM은 text description을 adhere 하면서 audio clip에 포함된 melody를 따르는 음악을 생성할 수 있음
  • Long Generation and Story Mode
    • MusicLM은 temporal dimension에 대해 autoregressive 하므로 long sequence를 생성할 수 있음
    • 추가적으로 시간이 지남에 따라 text description을 변경하면서 long audio sequence를 생성하는 stroy mode로 확장할 수 있음

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Total
Today
Yesterday