WhisperKit은 실시간 자동 음성 인식(ASR)을 위한 최적화된 온디바이스 추론 시스템으로, OpenAI gpt-4o-transcribe, Deepgram nova-3, Fireworks large-v3-turbo 등 주요 클라우드 기반 시스템보다 성능이 뛰어납니다. WhisperKit은 0.46초의 최저 지연 시간과 2.2% WER(Word Error Rate)의 최고 정확도를 달성했습니다. 본 논문에서는 WhisperKit 시스템의 최적화 과정을 자세히 설명합니다.