Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

Created by
  • Haebom

作者

Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Zelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi

概要

本論文は、ASR(Automatic Speech Recognition)評価が短い英語に集中しており、効率性がほとんど報告されないという問題点を指摘し、60以上のオープンソースおよび独占システムを11のデータセットで比較する完全に再現可能なベンチマークであり、インタラクティブなリーダーボードであるOpen ASR Leaderboardを提示する。このリーダーボードは多言語トラックと長文トラックを含み、テキスト正規化を標準化し、ワードエラー率(WER)と逆リアルタイム係数(RTFx)の両方を報告し、公正な精度 - 効率比較を可能にします。

Takeaways、Limitations

Takeaways:
多言語および長文音声認識評価のためのベンチマークを提供します。
WERとRTFxを利用した精度と効率の間の公平な比較を提供
Conformer-LLMの組み合わせは最高の平均WERを達成しますが、遅いです。
CTCとTDTデコーダはRTFxに優れ、長文やオフラインでの使用に適しています。
Whisperベースのエンコーダは英語の精度向上に貢献しますが、多言語カバレッジが減少する可能性。
透明でスケーラブルな評価のためのすべてのコードとデータセットローダーのオープンソース。
Limitations:
論文で具体的なLimitations言及はありません。
👍