Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation
Created by
Haebom
저자
Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Zelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi
개요
본 논문은 ASR (Automatic Speech Recognition) 평가가 짧은 영어에 집중되어 있고 효율성이 거의 보고되지 않는다는 문제점을 지적하며, 60개 이상의 오픈소스 및 독점 시스템을 11개의 데이터 세트에서 비교하는 완벽하게 재현 가능한 벤치마크이자 대화형 리더보드인 Open ASR Leaderboard를 제시한다. 이 리더보드는 다국어 및 장문 트랙을 포함하며, 텍스트 정규화를 표준화하고 단어 오류율(WER)과 역 실시간 팩터(RTFx)를 모두 보고하여 공정한 정확도-효율성 비교를 가능하게 한다.