Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BEARCUBS: A benchmark for computer-using web agents

Created by
  • Haebom

作者

Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer

概要

BEARCUBSは、実際のWeb環境でWebエージェントの情報検索能力を評価するための111の質問で構成されたベンチマークです。既存のベンチマークとは異なり、実際のWebページを使用し、さまざまなモードの相互作用(ビデオの理解、3Dナビゲーションなど)が必要です。各質問には簡潔な正解と人が検証したナビゲーションパスがあり、透明な評価が可能です。人間の研究では、質問は解決可能ですが、難易度があり(84.7%の精度)、知識の欠如と詳細な見落としが主な失敗の原因であることを示しています。 ChatGPT Agentは他のエージェントよりもかなり高い65.8%の精度を示しましたが、人間レベルのパフォーマンスには精密制御、複雑なデータフィルタリング、実行速度の向上が必要です。 BEARCUBSは定期的に更新され維持される予定です。

Takeaways、Limitations

Takeaways:
実際のWeb環境におけるWebエージェントのパフォーマンスを評価するための新しいベンチマークBEARCUBSの提示。
ChatGPT Agentを含むさまざまなWebエージェントの能力の比較と状況の把握
Webエージェントの発展方向の提示(精密制御,複雑なデータフィルタリング,実行速度の改善)
人間のウェブ情報探索戦略とエージェントの戦略比較分析可能性を提示する。
Limitations:
ベンチマークの質問の数が比較的少ない(111)。
質問の難易度と種類の多様性の追加レビューが必要です。
人間レベルのパフォーマンスとのギャップを解消するための追加の研究が必要です。
Web環境の継続的な変化に対するベンチマークの適応性を維持する必要性
👍