BEARCUBS는 실제 웹 환경에서 웹 에이전트의 정보 탐색 능력을 평가하기 위한 111개의 질문으로 구성된 벤치마크입니다. 기존 벤치마크와 달리, 실제 웹 페이지를 이용하며 다양한 모드의 상호작용(예: 비디오 이해, 3D 탐색)을 필요로 합니다. 각 질문에는 간결한 정답과 사람이 검증한 탐색 경로가 있어 투명한 평가가 가능합니다. 인간 연구 결과, 질문은 해결 가능하지만 난이도가 있으며(84.7% 정확도), 지식 부족과 세부 사항 간과가 주요 실패 원인임을 보여줍니다. ChatGPT Agent는 다른 에이전트보다 월등히 높은 65.8%의 정확도를 보였지만, 인간 수준의 성능에는 정밀 제어, 복잡한 데이터 필터링, 실행 속도 개선이 필요합니다. BEARCUBS는 주기적으로 업데이트되어 유지 관리될 예정입니다.