티스토리 뷰

반응형

ParaNoise-SV: Integrated Approach for Noise-Robust Speaker Verification with Parallel Joint Learning of Speech Enhancement and Noise Extraction 


  • 기존의 speaker verification model은 noise-robustness 측면에서 한계가 있음
  • ParaNoise-SV
    • Noise Extraction network와 Speech Enhancement network를 combine 한 dual U-Net을 활용
    • Noise Extraction U-Net은 noise를 explicitly modeling 하고 Speech Enhancement U-Net은 parallel connection을 통한 guidance를 활용하여 speaker-relevant feature를 preserve
  • 논문 (INTERSPEECH 2025) : Paper Link

1. Introduction

  • Speaker Verification (SV)는 주어진 speech가 target speaker와 match 하는지를 verify 함
    • 기존 SV system은 real-world environment의 noise를 mitigate 하기 위해 separately trained Speech Enhancement (SE) model을 주로 활용함
      - BUT, speaker-specific information을 degrade 하여 verification accuracy가 저하됨
    • 이를 해결하기 위해서는 SE, SV system을 jointly learning 해야 함
      1. SV의 경우 U-Net-based approach, Self-Supervised Learning (SSL)-based approach를 고려할 수 있지만, large parameter size로 인한 한계가 있음
      2. 한편으로 SE 측면에서는 dual-stream model을 활용하면 더 나은 enhancement를 달성할 수 있음

-> 그래서 SV, SE network를 combine 하여 noise-robustness를 향상한 ParaNoise-SV를 제안

 

  • ParaNoise-SV
    • U-Net을 기반으로 Noise Extraction (NE) network와 Speech Enhancement (SE) network를 jointly training
    • Parallel connection을 통해 network를 inter-connect 하여 noise-relevant feature가 speaker-relevant feature를 preserving 하면서 speech를 refine 하도록 유도

< Overall of ParaNoise-SV >

  • NE, SE network를 jointly training 한 noise-robust SV model
  • 결과적으로 기존보다 우수한 verification 성능을 달성

2. Method

- Overview of ParaNoise-SV

  • ParaNoise-SV는 NE, SE, SV를 dual encoder-decoder structure를 사용하여 integrate 함
    • 특히 simultaneous NE, SE를 위해 SE-ResNet이 포함된 dual U-Net을 활용하고, speaker-relevant information을 preserving 하면서 balanced separation을 보장하기 위해 parallel connection을 도입함
      - 이때 NE network는 noise를 isolate 하고 SE network는 각 encoding stage에서 parallel connection을 통해 dynamic noise suppression을 수행함
    • 추가적으로 논문은 extracted noise를 feature level에서 활용하여 contamination을 방지함
      - Speaker embedding extraction 시에는 ERes2NetV2가 사용되고, channel adaptation block은 skip connection을 통해 U-Net feature를 integrate 함

Overview

- Parallel Connections of Dual U-Nets

  • Input spectrogram은 instance normalization을 사용해 normalize 되고 initial convolutional layer를 통해 process 되어 noise/speech feature map $N_{E,0}, S_{E,0}$을 생성함
    • 각 encoder는 SE-ResNet을 사용하여 depth $L=4$의 hierarchical representation을 추출함
      1. NE network는 (Eq. 1)의 encoder block $e_{N}$을 통해 noise representation을 encode 하고 noise feature를 refine 함:
        (Eq. 1) $ N_{E,i}=e^{i}_{N}(N_{E,i-1}),\,\,\,i=1,...,L$
      2. (Eq. 2)의 deepest encoded feature는 decoding operation $d_{N}$을 initialize 하고 skip connection은 (Eq. 3)의 noise extraction을 aid 함:
        (Eq. 2) $N_{D,0}=N_{E,L}$
        (Eq. 3) $N_{D,i}=d_{N}^{i}(N_{D,i-1},N_{E,L-i}),\,\,\,i=1,...,L$
      3. (Eq. 4)에서 transposed convolutional layer는 estimated noise spectrogram $\hat{N}$을 생성함:
        (Eq. 4) $\hat{N}=\text{ConvTranspose}(N_{D,L},N_{E,0})$
    • SE network는 parallel connection을 incorporate 함:
      (Eq. 5) $S_{E,i}=e_{S}^{i}(S_{E,i-1},N_{E,i-1}),\,\,\,i=1,...,L$
      (Eq. 6) $S_{D,0}=S_{E,L}$
      - Information은 2개의 parallel network 간에 flow 되고, noise feature는 각 encoder block $e_{S}$에서 integrate 됨
    • Encoded speech feature는 (Eq. 7)과 같이 skip connection과 함께 decode 되고 final transposed convolutional layer output은 (Eq. 8)과 같이 enhanced speech spectrogram $\hat{S}$를 output 함:
      (Eq. 7) $S_{D,i}=d_{S}^{i}(S_{D,i-1},S_{E,L-i}),\,\,\,i=1,...,L$
      (Eq. 8) $\hat{S}=\text{ConvTranspose}(S_{D,L},S_{E,0})$
    • 결과적으로 SE network는 NE network로부터 noise information을 활용하여 speaker detail을 preserve 하고 noise suppression을 개선함 

Dual U-Net

- Speaker Embedding Extraction

  • Noisy speech에서는 spectral component가 missing/corrupt 되어 speaker verification이 어려울 수 있음
    • 이때 multiple scale에서 information을 capture 하면 specific frequency가 degrade 되어도 speaker characteristic을 preserve 할 수 있음
    • 따라서 논문은 multi-scale feature fusion과 channel expansion을 활용하는 ERes2NetV2를 통해 noisy environment에서의 verification 성능을 향상함
      1. 특히 SE network의 speech refinement capability를 fully exploit 하기 위해, 해당 decoder feature를 ERes2NetV2에 skip connection을 사용하여 integrate 함
      2. BUT, ERes2NetV2는 channel expansion으로 인해 dimension mismatch가 발생하므로, 논문은 multiple convolution layer로 구성된 channel adaptation을 SE decoder output에 적용함
    • Speaker embedding extraction은 noise suprpession으로 인한 information loss를 minimize 하기 위해 2-stage process를 채택함
      1. 먼저 SE network의 deepest encoder feature는 initial pooled vector로 사용되고, fully-connected (FC) layer를 통과하여 initial embedding을 생성함
      2. 이후 SV network를 통해 further process 되고, ASP를 적용하고, refined feature를 initial pooled vector와 concatenate 하여 final FC layer로 전달함
      3. Final embedding은 SE encoder output을 사용하여 parallel connection을 통해 refine 된 다음, ERes2NetV2 output과의 multi-scale aggregation을 통해 얻어짐
        - 해당 final embedding은 speaker verifcation을 위한 identity representation으로 사용됨

(a) SE-ResNet (b) ERes2NetV2

- Loss Functions

  • 논문은 NE, SE, SV를 integrated framework에서 optimize 함
    • 이때 loss function은:
      (Eq. 9) $\mathcal{L}=\mathcal{L}_{n}+\mathcal{L}_{s}+\mathcal{L}_{C}+\mathcal{L}_{AP}+\mathcal{L}_{AAM}$
      - $\mathcal{L}_{n}$ : noise extraction loss로써, $\hat{N}$과 original noise spectrogram 간의 Mean Squared Error (MSE) loss
      - $\mathcal{L}_{s}$ : speech enhancement loss로써, $\hat{S}$와 clean speech spectrogram 간의 MSE loss
    • Initial embedding과 speaker label 간의 cross-entropy loss $\mathcal{L}_{C}$는 speaker embedding extraction을 위해 사용됨
    • Angular Prototypical (AP) loss $\mathcal{L}_{AP}$와 Additive Angular Margin (AAM) loss $\mathcal{L}_{AAM}$은 final embedding을 optimize 하고 noise robustness를 향상함
      - $\mathcal{L}_{AP}$는 same speaker의 final clean embedding과 noisy embedding을 align 하고 $\mathcal{L}_{AAM}$은 final speaker embedding을 speaker-wise prototype과 separate 함

3. Experiments

- Settings

  • Dataset : VoxCeleb1 + MUSAN
  • Comparisons : VoiceID, NDML, ExU-Net, DiffSV 등

Model Settings

- Results

  • 전체적으로 ParaNoise-SV의 성능이 가장 뛰어남

Model 성능 비교

  • Out-of-Domain noise source에 대해서도 우수한 성능을 보임

Out-of-Domain Noise 환경에서의 결과

  • ParaNoise-SV는 seen/unseen condition에 상관없이 안정적인 성능을 달성함

Seen/Unseen Condition

  • Comparison with SSL
    • HuBERT, WavLM과 비교하여 ParaNoise-SV는 더 적은 parameter로 더 나은 성능을 보임

SSL과의 비교

 

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
«   2025/10   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Total
Today
Yesterday