AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories
Created by
Haebom
저자
Xing Han Lu, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stanczak, Peter Shaw, Christopher J. Pal, Siva Reddy
개요
본 논문은 웹 에이전트의 트래젝토리 평가를 위한 새로운 벤치마크인 AgentRewardBench를 제안합니다. 기존의 규칙 기반 평가 방식의 한계를 극복하고자, 대규모 언어 모델(LLM)을 이용한 자동 평가의 효과성을 평가하는 데 초점을 맞추고 있습니다. AgentRewardBench는 5개의 벤치마크와 4개의 LLM에서 생성된 1302개의 트래젝토리를 포함하며, 각 트래젝토리는 전문가에 의해 성공 여부, 부작용, 반복성 등을 기준으로 평가되었습니다. 이를 통해 12개의 LLM 심사자를 평가한 결과, 어떤 단일 LLM도 모든 벤치마크에서 우수한 성능을 보이지 않았으며, 기존의 규칙 기반 평가 방식은 웹 에이전트의 성공률을 과소평가하는 경향이 있음을 발견했습니다. AgentRewardBench는 https://agent-reward-bench.github.io 에서 공개됩니다.