Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

Created by
  • Haebom

저자

Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

개요

본 논문은 멀티모달 대규모 언어 모델(MLLM) 기반의 멀티모달 에이전트가 실제 세계 작업에서 자기 수정 및 일반화에 어려움을 겪는 문제를 해결하기 위해, 에이전트의 보상 모델링 능력을 평가하는 벤치마크인 Agent-RewardBench를 제안합니다. Agent-RewardBench는 다양한 실제 세계 시나리오(인지, 계획, 안전 등 7가지 시나리오), 단계별 보상 평가, 적절한 난이도와 높은 데이터 품질이라는 세 가지 주요 특징을 가지고 있습니다. 실험 결과, 최첨단 멀티모달 모델조차도 제한된 성능을 보이며, 에이전트 보상 모델링에 대한 특화된 훈련의 필요성을 강조합니다.

시사점, 한계점

시사점:
MLLM 기반 멀티모달 에이전트의 자기 수정 및 일반화 문제 해결을 위한 새로운 벤치마크 제시.
에이전트의 보상 모델링 능력 평가를 위한 체계적인 방법론 제공.
최첨단 모델의 한계를 드러내고, 에이전트 보상 모델링 분야의 추가 연구 필요성을 강조.
한계점:
벤치마크에 포함된 시나리오의 수와 다양성이 제한적일 수 있음.
벤치마크의 난이도 조절 및 데이터 품질 검증의 주관적인 부분 존재 가능성.
제안된 벤치마크의 일반화 성능에 대한 추가적인 검증 필요.
👍