Sign In

BEARCUBS: A benchmark for computer-using web agents

Created by
  • Haebom
Category
Empty

저자

Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer

개요

본 논문은 실제 웹 환경에서 웹 에이전트의 정보 탐색 능력을 평가하기 위한 새로운 벤치마크인 BEARCUBS를 제시합니다. BEARCUBS는 111개의 정보 탐색 질문으로 구성되며, 기존 벤치마크와 달리 실제 웹 페이지를 이용하고 다양한 모달 상호작용(예: 비디오 이해, 3D 탐색)을 필요로 합니다. 각 질문은 짧고 명확한 답변과 사람이 검증한 탐색 경로를 가지고 있어 에이전트의 성능과 전략을 투명하게 평가할 수 있습니다. 인간 연구 결과, BEARCUBS 질문은 해결 가능하지만 쉬운 수준은 아니며(인간 정확도 84.7%), 최첨단 웹 에이전트는 낮은 정확도(OpenAI의 Operator는 24.3%)를 보였습니다. 이는 신뢰할 수 있는 소스 선택 및 강력한 다모달 기능의 필요성을 시사합니다. BEARCUBS는 정기적으로 업데이트되어 지속적으로 활용될 예정입니다.

시사점, 한계점

시사점:
실제 웹 환경에서 웹 에이전트의 성능 평가를 위한 새로운 벤치마크 BEARCUBS 제시.
실제 웹 상호작용의 불확실성과 다양한 모달 상호작용의 필요성을 반영.
최첨단 웹 에이전트의 성능 한계를 명확히 제시하고 향상 방향 제시 (신뢰할 수 있는 소스 선택, 강력한 다모달 기능).
지속적인 업데이트를 통한 벤치마크의 지속적인 활용 가능성.
한계점:
현재 벤치마크의 질문 수(111개)가 상대적으로 적을 수 있음.
BEARCUBS의 질문이 특정 영역에 편향되어 있을 가능성.
인간의 탐색 경로가 항상 최적의 경로가 아닐 수 있음.
👍