본 논문은 실제 웹 환경에서 웹 에이전트의 정보 탐색 능력을 평가하기 위한 새로운 벤치마크인 BEARCUBS를 제시합니다. BEARCUBS는 111개의 정보 탐색 질문으로 구성되며, 기존 벤치마크와 달리 실제 웹 페이지를 이용하고 다양한 모달 상호작용(예: 비디오 이해, 3D 탐색)을 필요로 합니다. 각 질문은 짧고 명확한 답변과 사람이 검증한 탐색 경로를 가지고 있어 에이전트의 성능과 전략을 투명하게 평가할 수 있습니다. 인간 연구 결과, BEARCUBS 질문은 해결 가능하지만 쉬운 수준은 아니며(인간 정확도 84.7%), 최첨단 웹 에이전트는 낮은 정확도(OpenAI의 Operator는 24.3%)를 보였습니다. 이는 신뢰할 수 있는 소스 선택 및 강력한 다모달 기능의 필요성을 시사합니다. BEARCUBS는 정기적으로 업데이트되어 지속적으로 활용될 예정입니다.