Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

Created by
  • Haebom

저자

Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Zelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi

개요

본 논문은 ASR (Automatic Speech Recognition) 평가가 짧은 영어에 집중되어 있고 효율성이 거의 보고되지 않는다는 문제점을 지적하며, 60개 이상의 오픈소스 및 독점 시스템을 11개의 데이터 세트에서 비교하는 완벽하게 재현 가능한 벤치마크이자 대화형 리더보드인 Open ASR Leaderboard를 제시한다. 이 리더보드는 다국어 및 장문 트랙을 포함하며, 텍스트 정규화를 표준화하고 단어 오류율(WER)과 역 실시간 팩터(RTFx)를 모두 보고하여 공정한 정확도-효율성 비교를 가능하게 한다.

시사점, 한계점

시사점:
다국어 및 장문 음성 인식 평가를 위한 벤치마크 제공.
WER 및 RTFx를 활용한 정확도와 효율성 간의 공정한 비교 제공.
Conformer-LLM 조합은 최고의 평균 WER을 달성하나 속도가 느림.
CTC 및 TDT 디코더는 RTFx가 뛰어나 장문 및 오프라인 사용에 적합.
Whisper 기반 인코더는 영어 정확도 향상에 기여하나 다국어 커버리지 감소 가능성.
투명하고 확장 가능한 평가를 위한 모든 코드 및 데이터 세트 로더 오픈 소스.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍