티스토리 뷰
Paper/Representation
[Paper 리뷰] SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT
feVeRin 2025. 6. 19. 17:01반응형
SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT
- Speech의 sentence-level representation을 학습하여 syllabic organization을 emerge 할 수 있음
- SD-HuBERT
- Entire speech를 summarize 하는 aggregator token으로 pre-trained HuBERT를 fine-tuning
- Supervision 없이 self-distillation objective를 사용하여 salient syllabic structure를 draw
- 추가적으로 Spoken Speech ABX benchmark를 활용하여 sentence-level representation을 evaluate
- 논문 (ICASSP 2024) : Paper Link
1. Introduction
- Self-Supervised Learning (SSL)은 transferable 한 rich representation을 학습할 수 있음
- 특히 speech SSL model은 articulatory phonetics와 highly correlate 되어 있고, 해당 discretized unit은 phonetic space를 effectively tiling 하는 fine-grained subphonemic unit과 같음
- 한편으로 phonological viewpoint에서는 phoneme 보다는 syllable을 speech에 대한 most naturalistic placeholder로 볼 수 있음
- 특히 syllable은 pronunciation의 minimal unit에 해당하고, syllabic unit을 얻기 위해서는 phoneme을 group 하는 bracket으로 speech를 segment 할 수 있어야 함
- BUT, 기존의 speech SSL model은 해당 segmentation ability가 부족함
-> 그래서 syllable에 대한 distinct chunk를 segment할 수 있는 SD-HuBERT를 제안
- SD-HuBERT
- Sentence-level self-distillation method를 도입하여 pre-trained HuBERT를 fine-tuning
- 이를 통해 label이나 external modality를 사용하지 않고도 continuous speech를 distinct chunk로 segment 하는 방법을 학습함 - Sailent boundary를 draw하여 segmentation algorithm의 efficient deployment를 지원
- 추가적으로 spoken sentence에서 discriminability를 evaluate 하는 Spoken Sentence ABX (SSABX)를 도입
- Sentence-level self-distillation method를 도입하여 pre-trained HuBERT를 fine-tuning
< Overall of SD-HuBERT >
- Sentence-level self-distillation과 boundary detection을 통해 syllabic unit을 추출하는 SSL model
- 결과적으로 기존보다 우수한 성능을 달성
2. Method
- Sentence-Level Fine-Tuning of HuBERT
- 논문은 pre-trained speech SSL model인 HuBERT를 기반으로 함
- 특히 SD-HuBERT는 frame-level에 대한 기존 방식과 달리 sentence-level representation에 대해 optimize 됨
- 이를 위해 논문은 VG-HuBERT와 같이 learnable embedding을 가지는 aggregator token을 Transformer encoder input에 concatenate 함
- 여기서 aggregator token은 frame에 대한 information을 entire audio input에 대한 single, representative embedding으로 aggregate 함
- Aggregator token의 final output은 non-linear mapping, softmax function으로 전달되어 주어진 spoken sentence의 probability $p_{\theta}$를 parameterize 함
- $\theta$ : model weight
- 논문은 student model $p_{\theta_{S}}(\cdot)$을 teacher model $p_{\theta_{T}}(\cdot)$으로 distill 하는 self-distillation framework를 활용함
- 여기서 $\theta_{T}$는 $\theta_{S}$의 Exponential Moving Average (EMA)에 해당함
- 추가적으로 augmentation set $\mathcal{T}$에서 randomly select 되는 random data augmentation $\tau(\cdot)$가 feature extractor의 output frame에 적용됨
- Random frame masking, random time wraping - 이후 masked frame은 learnable mask token으로 replace 되고, model은 aggregator token에서 infer 된 probability에 대한 cross-entropy를 minimize 함:
(Eq. 1) $\sum_{x\in X}-p_{\theta_{T}}(\tau(x))\log(p_{\theta_{S}}(\tau'(x)))$
- 여기서 teacher inference는 target reference로 사용됨 ($\tau, \tau'\sim\mathcal{T}$)
- Teacher ouptut recentering과 stop-gradient는 degeneration을 방지하기 위해 사용됨
- SD-HuBERT weight는 HuBERT checkpoint로 initialize 되고 Transformer encoder의 last 3-layer는 random weight로 reinitialize 됨
- 한편으로 feature extractor, positional encoding model은 freeze 됨
- 특히 SD-HuBERT는 frame-level에 대한 기존 방식과 달리 sentence-level representation에 대해 optimize 됨
- Unsupervised Syllabic Discovery
- Self-distillation은 아래 그림과 같은 embedding space를 형성함
- 기존 HuBERT에서는 similarity가 relatively local 하게 나타나지만 self-distillation 이후에는 similarity는 longer window로 span 되고 ground-truth syllable과 largely overlapping 됨
- 특히 SD-HuBERT의 later layer에서는 definite boundary가 draw 되고, boundary 근처의 frame은 distinctively small norm을 가지도록 knock out 됨
- 이는 주로 last randomly initialized layer (11-th layer)에서 발생하고, random reinitialization을 remove 하는 경우 나타나지 않음 - 따라서 해당 indicator를 활용하여 input speech를 frame norm을 기준으로 segment 할 수 있음
- BUT, 이때 resulting segment는 syllable에 해당하지는 않음
- 특히 SD-HuBERT의 later layer에서는 definite boundary가 draw 되고, boundary 근처의 frame은 distinctively small norm을 가지도록 knock out 됨
- 아래 그림의 Maksed-L9에서 norm thresholding은 $\text{T-EH},\text{L-AH}$에 대해 single segment를 assign 하고, later frame의 $\text{AH},\text{DH-ER-Z}$에 대해서도 동일한 문제가 나타남
- 이러한 segment는 하나 이상의 syllable을 span 할 수 있으므로, 논문은 각 segment를 refine 하기 위해 minimum-cut algorithm을 적용함
- 특히 SD-HuBERT의 behavior는 segementation의 free first cut을 제공하므로 minimum-cut algorithm의 search space를 크게 줄여줌
- Syllable 수 $k$, frame 수 $N$에 대해 기존 algorithm의 time complexity는 $\mathcal{O}(kN^{2})$와 같음
- 한편으로 논문의 norm thresholding은 syllable 수에 따라 frame을 asymptotically divide 하므로 time complexity를 $\mathcal{O}(N^{2}/k)$로 reduce 할 수 있음
- 추가적으로 detected syllable boundary를 evaluate 하기 위해 50ms tolerance window로 precision $\text{Pr}$, recall $\text{Re}$, $F1$, $R$ score를 계산함
- Ground-truth syllable boundary는 seamlessly annotate 되는 반면, predicted boundary는 knocked-out frame으로 인해 seamless 하지 않으므로 논문은 segment의 onset을 detected boundary로 사용함 - Segmentation evaluation 외에도 clustering analysis를 통해 segment가 ground-truth syllable과 잘 correspond 되는지를 evaluate 할 수 있음
- 먼저 segment 내의 feature는 segment-wise feature로 average 되어 data-driven syllabic unit을 생성함
- 이때 처음에는 16384의 large cluster를 assign 하고 agglomerative clustering을 통해 4096 cluster로 merge 하는 two-step clustering을 활용함 - 이후 syllable purity $\text{SP}$, cluster purity $\text{CP}$를 통해 unit category가 most matching syllable로 얼마나 puerly mapping 되는지를 measure 함
- 여기서 Hungarian matching algorithm을 사용해 unit category를 ground-truth syllable에 match 하고 matching unit segment와 labeled syllable span 간의 intersection-over-union을 maximize 함
- 먼저 segment 내의 feature는 segment-wise feature로 average 되어 data-driven syllabic unit을 생성함
- Evaluation에는 LibriSpeech가 사용되고, ground-truth label은 Montreal Forced Alignment과 transcribed text의 syllabification을 통해 얻어짐
- 기존 HuBERT에서는 similarity가 relatively local 하게 나타나지만 self-distillation 이후에는 similarity는 longer window로 span 되고 ground-truth syllable과 largely overlapping 됨
- Spoken Sentence ABX (SSABX)
- 논문은 LibriSpeech test set으로부터 triplet을 mining 하여 speech model의 sentence discriminability에 대한 benchmark task를 구성함
- 먼저 LibriSpeech test set의 각 audio는 silent moment를 cutting 하여 smaller sentence piece로 segment 됨
- 이후 off-the-shelf textual sentence embedding model인 SimCSE를 사용하여 transcribed text의 ground-truth sentence embedding을 추출함
- 여기서 두 sentence 간의 similarity는 inferred sentence embedding과의 cosine similarity로 얻어지고, higher similarity pair는 ABX triplet에서 positive pair로 취급함
- $(X,\text{Pos}, \text{Neg})$ triplet은 다음의 기준을 따라 얻어짐:
- Positive pair의 matching condition은 cosine similarity가 0.8 이상이어야 함
- ABX task의 difficulty를 balance 하기 위해, negative sample의 similarity range는 $[-1,0.2], [0.2,0.4], [0.4,0.6]$의 3가지 group으로 divide 되고 각 group에서 1K sample을 추출함
- $X,\text{Pos}$ 간의 word 수 차이와 $X, \text{Neg}$ 간의 word 수 차이는 4 word 미만이어야 함
- Triplet의 각 speech는 서로 다른 speaker를 가짐
- Acousitc, phonetic similarity에 기반한 decision making을 방지하기 위해 $X,\text{Pos}$에 대해 high Levenshtein similarity ratio ($>0.7$)을 가지는 sample은 reject 함
- 각 sentence는 최소한 5 word로 구성되고, speech는 5s를 exceed 하지 않음
- 결과적으로 얻어지는 final test set은 spoken sentence에 대한 3K triplet으로 구성됨
- 먼저 LibriSpeech test set의 각 audio는 silent moment를 cutting 하여 smaller sentence piece로 segment 됨
3. Experiments
- Settings
- Dataset : LibriSpeech
- Comparisons : Wav2Vec 2.0, HuBERT, WavLM, VG-HuBERT
- Results
- SD-HuBERT는 기존보다 우수한 syllable boundary detection과 clustering score를 달성함
- 특히 time complexity 측면에서 $\mathcal{O}(N)$을 달성함
- Evaluation on Sentence-Level Speech Embedding
- SD-HuBERT는 SSABX task에 대해서도 우수한 성능을 달성함
- Syllabic Organization
- Fine-tuning 이후 articulatory information은 layer를 따라 감소하는 반면, SSABX score는 증가함
반응형
'Paper > Representation' 카테고리의 다른 글
댓글