BEARCUBS là một tiêu chuẩn gồm 111 câu hỏi để đánh giá khả năng khám phá thông tin của các tác nhân web trong môi trường web thực tế. Không giống như các tiêu chuẩn hiện có, tiêu chuẩn này sử dụng các trang web thực tế và yêu cầu nhiều chế độ tương tác khác nhau (ví dụ: hiểu video, điều hướng 3D). Mỗi câu hỏi đều có câu trả lời ngắn gọn và đường dẫn điều hướng được xác minh bởi con người, cho phép đánh giá minh bạch. Các nghiên cứu trên người cho thấy các câu hỏi có thể giải được nhưng khó (độ chính xác 84,7%), và việc thiếu kiến thức và bỏ sót chi tiết là nguyên nhân chính dẫn đến thất bại. ChatGPT Agent đạt độ chính xác 65,8%, cao hơn đáng kể so với các tác nhân khác, nhưng hiệu suất ở mức độ con người đòi hỏi khả năng điều khiển chính xác, lọc dữ liệu phức tạp và tốc độ thực thi được cải thiện. BEARCUBS sẽ được cập nhật và bảo trì định kỳ.