티스토리 뷰

반응형

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT


  • Speech의 sentence-level representation을 학습하여 syllabic organization을 emerge 할 수 있음
  • SD-HuBERT
    • Entire speech를 summarize 하는 aggregator token으로 pre-trained HuBERT를 fine-tuning
    • Supervision 없이 self-distillation objective를 사용하여 salient syllabic structure를 draw
    • 추가적으로 Spoken Speech ABX benchmark를 활용하여 sentence-level representation을 evaluate
  • 논문 (ICASSP 2024) : Paper Link

1. Introduction

  • Self-Supervised Learning (SSL)은 transferable 한 rich representation을 학습할 수 있음
    • 특히 speech SSL model은 articulatory phonetics와 highly correlate 되어 있고, 해당 discretized unit은 phonetic space를 effectively tiling 하는 fine-grained subphonemic unit과 같음
    • 한편으로 phonological viewpoint에서는 phoneme 보다는 syllable을 speech에 대한 most naturalistic placeholder로 볼 수 있음
      1. 특히 syllable은 pronunciation의 minimal unit에 해당하고, syllabic unit을 얻기 위해서는 phoneme을 group 하는 bracket으로 speech를 segment 할 수 있어야 함
      2. BUT, 기존의 speech SSL model은 해당 segmentation ability가 부족함 

-> 그래서 syllable에 대한 distinct chunk를 segment할 수 있는 SD-HuBERT를 제안

 

  • SD-HuBERT
    • Sentence-level self-distillation method를 도입하여 pre-trained HuBERT를 fine-tuning
      - 이를 통해 label이나 external modality를 사용하지 않고도 continuous speech를 distinct chunk로 segment 하는 방법을 학습함
    • Sailent boundary를 draw하여 segmentation algorithm의 efficient deployment를 지원
    • 추가적으로 spoken sentence에서 discriminability를 evaluate 하는 Spoken Sentence ABX (SSABX)를 도입

< Overall of SD-HuBERT >

  • Sentence-level self-distillation과 boundary detection을 통해 syllabic unit을 추출하는 SSL model
  • 결과적으로 기존보다 우수한 성능을 달성

2. Method

- Sentence-Level Fine-Tuning of HuBERT

  • 논문은 pre-trained speech SSL model인 HuBERT를 기반으로 함
    • 특히 SD-HuBERT는 frame-level에 대한 기존 방식과 달리 sentence-level representation에 대해 optimize 됨
      1. 이를 위해 논문은 VG-HuBERT와 같이 learnable embedding을 가지는 aggregator token을 Transformer encoder input에 concatenate 함
      2. 여기서 aggregator token은 frame에 대한 information을 entire audio input에 대한 single, representative embedding으로 aggregate 함
        - Aggregator token의 final output은 non-linear mapping, softmax function으로 전달되어 주어진 spoken sentence의 probability $p_{\theta}$를 parameterize 함
        - $\theta$ : model weight
    • 논문은 student model $p_{\theta_{S}}(\cdot)$을 teacher model $p_{\theta_{T}}(\cdot)$으로 distill 하는 self-distillation framework를 활용함
      1. 여기서 $\theta_{T}$는 $\theta_{S}$의 Exponential Moving Average (EMA)에 해당함
      2. 추가적으로 augmentation set $\mathcal{T}$에서 randomly select 되는 random data augmentation $\tau(\cdot)$가 feature extractor의 output frame에 적용됨
        - Random frame masking, random time wraping
      3. 이후 masked frame은 learnable mask token으로 replace 되고, model은 aggregator token에서 infer 된 probability에 대한 cross-entropy를 minimize 함:
        (Eq. 1) $\sum_{x\in X}-p_{\theta_{T}}(\tau(x))\log(p_{\theta_{S}}(\tau'(x)))$
        - 여기서 teacher inference는 target reference로 사용됨 ($\tau, \tau'\sim\mathcal{T}$)
        - Teacher ouptut recentering과 stop-gradient는 degeneration을 방지하기 위해 사용됨
    • SD-HuBERT weight는 HuBERT checkpoint로 initialize 되고 Transformer encoder의 last 3-layer는 random weight로 reinitialize 됨
      - 한편으로 feature extractor, positional encoding model은 freeze 됨

Sentence-Level Self-Distillation

- Unsupervised Syllabic Discovery

  • Self-distillation은 아래 그림과 같은 embedding space를 형성함
    • 기존 HuBERT에서는 similarity가 relatively local 하게 나타나지만 self-distillation 이후에는 similarity는 longer window로 span 되고 ground-truth syllable과 largely overlapping 됨
      1. 특히 SD-HuBERT의 later layer에서는 definite boundary가 draw 되고, boundary 근처의 frame은 distinctively small norm을 가지도록 knock out 됨
        - 이는 주로 last randomly initialized layer (11-th layer)에서 발생하고, random reinitialization을 remove 하는 경우 나타나지 않음
      2. 따라서 해당 indicator를 활용하여 input speech를 frame norm을 기준으로 segment 할 수 있음
        - BUT, 이때 resulting segment는 syllable에 해당하지는 않음
    • 아래 그림의 Maksed-L9에서 norm thresholding은 $\text{T-EH},\text{L-AH}$에 대해 single segment를 assign 하고, later frame의 $\text{AH},\text{DH-ER-Z}$에 대해서도 동일한 문제가 나타남
      1. 이러한 segment는 하나 이상의 syllable을 span 할 수 있으므로, 논문은 각 segment를 refine 하기 위해 minimum-cut algorithm을 적용함 
      2. 특히 SD-HuBERT의 behavior는 segementation의 free first cut을 제공하므로 minimum-cut algorithm의 search space를 크게 줄여줌 
        - Syllable 수 $k$, frame 수 $N$에 대해 기존 algorithm의 time complexity는 $\mathcal{O}(kN^{2})$와 같음
        - 한편으로 논문의 norm thresholding은 syllable 수에 따라 frame을 asymptotically divide 하므로 time complexity를 $\mathcal{O}(N^{2}/k)$로 reduce 할 수 있음
    • 추가적으로 detected syllable boundary를 evaluate 하기 위해 50ms tolerance window로 precision $\text{Pr}$, recall $\text{Re}$, $F1$, $R$ score를 계산함
      - Ground-truth syllable boundary는 seamlessly annotate 되는 반면, predicted boundary는 knocked-out frame으로 인해 seamless 하지 않으므로 논문은 segment의 onset을 detected boundary로 사용함
    • Segmentation evaluation 외에도 clustering analysis를 통해 segment가 ground-truth syllable과 잘 correspond 되는지를 evaluate 할 수 있음 
      1. 먼저 segment 내의 feature는 segment-wise feature로 average 되어 data-driven syllabic unit을 생성함
        - 이때 처음에는 16384의 large cluster를 assign 하고 agglomerative clustering을 통해 4096 cluster로 merge 하는 two-step clustering을 활용함
      2. 이후 syllable purity $\text{SP}$, cluster purity $\text{CP}$를 통해 unit category가 most matching syllable로 얼마나 puerly mapping 되는지를 measure 함 
        - 여기서 Hungarian matching algorithm을 사용해 unit category를 ground-truth syllable에 match 하고 matching unit segment와 labeled syllable span 간의 intersection-over-union을 maximize 함
    • Evaluation에는 LibriSpeech가 사용되고, ground-truth label은 Montreal Forced Alignment과 transcribed text의 syllabification을 통해 얻어짐

Frame Similarity

- Spoken Sentence ABX (SSABX)

  • 논문은 LibriSpeech test set으로부터 triplet을 mining 하여 speech model의 sentence discriminability에 대한 benchmark task를 구성함
    • 먼저 LibriSpeech test set의 각 audio는 silent moment를 cutting 하여 smaller sentence piece로 segment 됨
      1. 이후 off-the-shelf textual sentence embedding model인 SimCSE를 사용하여 transcribed text의 ground-truth sentence embedding을 추출함
      2. 여기서 두 sentence 간의 similarity는 inferred sentence embedding과의 cosine similarity로 얻어지고, higher similarity pair는 ABX triplet에서 positive pair로 취급함
    • $(X,\text{Pos}, \text{Neg})$ triplet은 다음의 기준을 따라 얻어짐:
      1. Positive pair의 matching condition은 cosine similarity가 0.8 이상이어야 함
      2. ABX task의 difficulty를 balance 하기 위해, negative sample의 similarity range는 $[-1,0.2], [0.2,0.4], [0.4,0.6]$의 3가지 group으로 divide 되고 각 group에서 1K sample을 추출함
      3. $X,\text{Pos}$ 간의 word 수 차이와 $X, \text{Neg}$ 간의 word 수 차이는 4 word 미만이어야 함
      4. Triplet의 각 speech는 서로 다른 speaker를 가짐
      5. Acousitc, phonetic similarity에 기반한 decision making을 방지하기 위해 $X,\text{Pos}$에 대해 high Levenshtein similarity ratio ($>0.7$)을 가지는 sample은 reject 함
      6. 각 sentence는 최소한 5 word로 구성되고, speech는 5s를 exceed 하지 않음
    • 결과적으로 얻어지는 final test set은 spoken sentence에 대한 3K triplet으로 구성됨

3. Experiments

- Settings

- Results

  • SD-HuBERT는 기존보다 우수한 syllable boundary detection과 clustering score를 달성함
    - 특히 time complexity 측면에서 $\mathcal{O}(N)$을 달성함

Syllable Boundary Detection

  • Evaluation on Sentence-Level Speech Embedding
    • SD-HuBERT는 SSABX task에 대해서도 우수한 성능을 달성함

SSABX Task에서의 성능

  • Syllabic Organization
    • Fine-tuning 이후 articulatory information은 layer를 따라 감소하는 반면, SSABX score는 증가함

(상) Layer-Wise Articulatory Correlation (하) SSABX Score

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Total
Today
Yesterday