Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Created by
  • Haebom

저자

Xing Han Lu, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stanczak, Peter Shaw, Christopher J. Pal, Siva Reddy

개요

본 논문은 웹 에이전트의 트래젝토리 평가를 위한 새로운 벤치마크인 AgentRewardBench를 제안합니다. 기존의 규칙 기반 평가 방식의 한계를 극복하고자, 대규모 언어 모델(LLM)을 이용한 자동 평가의 효과성을 평가하는 데 초점을 맞추고 있습니다. AgentRewardBench는 5개의 벤치마크와 4개의 LLM에서 생성된 1302개의 트래젝토리를 포함하며, 각 트래젝토리는 전문가에 의해 성공 여부, 부작용, 반복성 등을 기준으로 평가되었습니다. 이를 통해 12개의 LLM 심사자를 평가한 결과, 어떤 단일 LLM도 모든 벤치마크에서 우수한 성능을 보이지 않았으며, 기존의 규칙 기반 평가 방식은 웹 에이전트의 성공률을 과소평가하는 경향이 있음을 발견했습니다. AgentRewardBench는 https://agent-reward-bench.github.io 에서 공개됩니다.

시사점, 한계점

시사점:
LLM을 활용한 웹 에이전트 트래젝토리 평가의 효과성을 체계적으로 평가하는 첫 번째 벤치마크를 제시.
기존 규칙 기반 평가의 한계(성공률 과소평가)를 밝히고, 더 유연한 자동 평가의 필요성 제기.
LLM을 이용한 자동 평가의 가능성과 한계를 동시에 제시하여 향후 연구 방향 제시.
AgentRewardBench 데이터셋 공개를 통해 후속 연구 활성화 기여.
한계점:
특정 LLM과 벤치마크에 국한된 평가 결과로, 일반화 가능성에 대한 추가 연구 필요.
전문가 평가의 주관성이 결과에 영향을 미칠 수 있음.
다양한 유형의 웹 에이전트와 작업에 대한 평가를 포함하지 않아, 일반성이 제한적일 수 있음.
👍