[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BEARCUBS: A benchmark for computer-using web agents

Created by
  • Haebom

作者

Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer

概要

本稿では、実際のWeb環境でWebエージェントの情報検索能力を評価するための新しいベンチマークであるBEARCUBSを紹介します。 BEARCUBSは111の情報ナビゲーションの質問で構成されており、既存のベンチマークとは異なり、実際のWebページを使用してさまざまなモーダル間の相互作用(ビデオの理解、3Dナビゲーションなど)が必要です。人間の実験の結果、質問の難易度は適切で(84.7%の精度)、最先端のWebエージェントは低い精度(最高23.4%)を示しました。これは、信頼できる情報源の選択と強力なダモダル能力の重要性を強調します。 BEARCUBSは継続的に更新され、Webエージェントの研究に貢献します。

Takeaways、Limitations

Takeaways:
実際のWeb環境におけるWebエージェントのパフォーマンスを評価するための新しいベンチマークBEARCUBSの提示
既存のベンチマークの限界を克服し、さまざまなモーダル間の相互作用の必要性を強調
最先端のWebエージェントの性能低下の原因を明らかにし、向上方向を提示(信頼できるソース選択、強力なダモダル能力)
Webエージェント研究のための継続的なベンチマークの提供
Limitations:
現在、ベンチマークの質問数(111件)が比較的少ない場合があります。
BEARCUBSの継続的な更新とメンテナンスが必要です。
Web環境の変化に応じて、ベンチマークの適切性を継続的に検討する必要があります。
👍