본 논문은 멀티모달 대규모 언어 모델(MLLM) 기반의 멀티모달 에이전트가 실제 세계 작업에서 자기 수정 및 일반화에 어려움을 겪는 문제를 해결하기 위해, 에이전트의 보상 모델링 능력을 평가하는 벤치마크인 Agent-RewardBench를 제안합니다. Agent-RewardBench는 다양한 실제 세계 시나리오(인지, 계획, 안전 등 7가지 시나리오), 단계별 보상 평가, 적절한 난이도와 높은 데이터 품질이라는 세 가지 주요 특징을 가지고 있습니다. 실험 결과, 최첨단 멀티모달 모델조차도 제한된 성능을 보이며, 에이전트 보상 모델링에 대한 특화된 훈련의 필요성을 강조합니다.