
LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASRMultilingual Automatic Speech Recognition을 위해서는 language interference와 성능 저하 없는 new language incorporation이 필요함LoRA-WhisperWhisper에 LoRA matrix를 incorporate 하여 language interference를 완화LoRA와 language 간의 similarity를 활용하여 new language에 대한 성능을 개선논문 (ICASSP 2024) : Paper Link1. IntroductionAutomatic Speech Recognition (ASR)은 speech를 wr..

CrisperWhisper: Accurate Timestamps on Verbatim Speech TranscriptionsWhisper의 tokenizer를 adjust 하여 word-level timestamps precision을 향상할 수 있음CrisperWhisperWhisper decoder의 cross-attention score에 dynamic time warping을 적용추가적인 fine-tuning을 통해 robustness를 향상논문 (INTERSPEECH 2024) : Paper Link1. IntroductionAutomatic Speech Recognition (ASR)에서 large-scale, weakly supervised learning은 뛰어난 성능을 보이고 있음특히 S..

WhisperX: Time-Accurate Speech Transcription of Long-Form AudioWeakly-supervised speech recognition model은 각 utterance에 해당하는 predicted timestamp가 inaccurate 하고 word-level timestamp를 out-of-the-box로 사용할 수 없음특히 sequential natrue로 인해 long audio의 buffered transcription을 통한 batched inference가 어려움WhisperXWord-level timestamp를 가진 time-accurate speech recognition modelVoice Activity Detection과 forced ph..

Whisper: Robust Speech Recognition via Large-Scale Weak SupervisionAudio transcripting을 위해 large data로 speech processing system을 training 할 수 있음Whisper680,000 hours의 multilingual, multitask supervision으로 model을 scalingDataset에 대한 specific fine-tuning 없이도 뛰어난 accuracy, robustness를 달성논문 (ICML 2023) : Paper Link1. IntroductionSpeech recognition은 wav2vec 2.0의 unsupervised pre-training technique을 주로 ..