반응형

WhisperX: Time-Accurate Speech Transcription of Long-Form AudioWeakly-supervised speech recognition model은 각 utterance에 해당하는 predicted timestamp가 inaccurate 하고 word-level timestamp를 out-of-the-box로 사용할 수 없음특히 sequential natrue로 인해 long audio의 buffered transcription을 통한 batched inference가 어려움WhisperXWord-level timestamp를 가진 time-accurate speech recognition modelVoice Activity Detection과 forced ph..
Paper/ASR
2025. 3. 18. 21:54
반응형