Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

Created by
  • Haebom

作者

Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

概要

この論文では、マルチモーダル大規模言語モデル(MLLM)ベースのマルチモーダルエージェントが実際の世界作業で自己修正と一般化に困難を抱える問題を解決するために、エージェントの報酬モデリング能力を評価するベンチマークであるAgent-RewardBenchを提案します。 Agent-RewardBenchは、さまざまな実世界シナリオ(認知、計画、安全など7つのシナリオ)、段階的な報酬評価、適切な難易度と高いデータ品質という3つの主な特徴を持っています。実験の結果、最先端のマルチモーダルモデルでさえも限られた性能を示し、エージェント補償モデリングのための特殊なトレーニングの必要性を強調しています。

Takeaways、Limitations

Takeaways:
MLLMベースのマルチモーダルエージェントの自己修正と一般化の問題解決のための新しいベンチマークの提示
エージェントの報酬モデリング能力を評価するための体系的な方法論を提供する。
最先端モデルの限界を明らかにし、エージェント補償モデリング分野のさらなる研究の必要性を強調。
Limitations:
ベンチマークに含まれるシナリオの数と多様性は限られている可能性があります。
ベンチマークの難易度調整とデータ品質検証の主観的な部分存在の可能性
提案されたベンチマークの一般化性能の追加検証が必要です。
👍