Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents

Created by
  • Haebom

作者

Tianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang, Xiang Yao, Zhiqiang Xie, Yongchao Chen, Shilong Liu, Bochen Qian, Anjie Yang, Zhaoxuan Jin, Jianbo Deng, Philip Torr, Bernard Ghanem,

概要

本論文では、さまざまなGUI環境(ウェブサイト、デスクトップ、モバイル)で自然言語で説明された作業を行う自律エージェント開発に重点を置いたマルチモーダル言語モデル(MLM)のための新しいベンチマークフレームワークであるCrabを紹介する。グラフベースの細分化された評価方法と効率的なタスクと評価者の構成メカニズムを統合します。示されているすべてのフレームワークコード、エージェントコード、および作業データセットが公開されています。

Takeaways、Limitations

Takeaways:
クロス環境タスクをサポートする最初のエージェントベンチマークフレームワークを提供
グラフベースの細かい評価方法と効率的な作業と評価者の構成メカニズムを提示
さまざまな環境(デスクトップ、モバイル)でMLMエージェントのパフォーマンスを比較および分析可能
公開されたコードとデータセットによるMLMエージェント研究の活性化の貢献
Limitations:
現在、ベンチマークは120のタスクで構成されており、より多様で広範なタスクを追加する必要があります
評価方法のセグメンテーションにもかかわらず、実際のユーザーの経験と完全に一致する評価は難しい
特定のMLMに対する依存性の存在
👍