Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AHELM: A Holistic Evaluation of Audio-Language Models

Created by
  • Haebom

作者

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

概要

AHELMは、オーディオ言語モデル(ALM)を総合的に評価するための新しいベンチマークです。既存のベンチマークのLimitations(標準化の欠如、測定側の制限、モデル間の比較困難)を解決するために、PARADEとCoRe-Benchという2つの新しい合成オーディオテキストデータセットを含むさまざまなデータセットを統合しました。オーディオ認識、知識、推論、感情検出、偏向、公平性、多言語サポート、堅牢性、毒性、安全性など、10の重要な側面にわたってALMのパフォーマンスを測定し、標準化されたプロンプト、推論パラメータ、評価指標を使用してモデル間の公平な比較を保証します。 14のオープンウェイトおよびクローズドAPI ALMと3つの単純な基準システムを評価し、Gemini 2.5 Proは5つの側面で最高ランクを占めましたが、ASR作業でグループの不公正を示すなどの結果を提示します。すべてのデータはhttps://crfm.stanford.edu/helm/audio/v1.0.0で公開されています。

Takeaways、Limitations

Takeaways:
ALM評価のための標準化されたベンチマークAHELMを提示し、モデル間の公平な比較を可能にします。
さまざまな側面(オーディオ認識、推論、偏向、安全性など)を包括的に評価して、ALMの全体的なパフォーマンスを測定します。
既存モデルと基準システム間の性能比較によるALM開発方向の提示
AHELMを継続的に更新して新しいデータセットとモデルを追加する予定です。
Limitations:
現在、ベンチマークに含まれるモデルの数が制限されている可能性があります。
新しいデータセット(PARADE、CoRe-Bench)の規模と一般化性能の追加検証が必要です。
特定の観点からの評価結果の解釈のためのさらなる分析の必要性
👍