반응형

Whisper: Robust Speech Recognition via Large-Scale Weak SupervisionAudio transcripting을 위해 large data로 speech processing system을 training 할 수 있음Whisper680,000 hours의 multilingual, multitask supervision으로 model을 scalingDataset에 대한 specific fine-tuning 없이도 뛰어난 accuracy, robustness를 달성논문 (ICML 2023) : Paper Link1. IntroductionSpeech recognition은 wav2vec 2.0의 unsupervised pre-training technique을 주로 ..
Paper/ASR
2025. 3. 1. 13:48
반응형