Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BEARCUBS: Một chuẩn mực cho các tác nhân web sử dụng máy tính

Created by
  • Haebom

Tác giả

Yixiao Song, Katherine Thái, Châu Minh Phạm, Yapei Chang, Mazin Nadaf, Mohit Iyyer

Phác thảo

BEARCUBS là một tiêu chuẩn gồm 111 câu hỏi để đánh giá khả năng khám phá thông tin của các tác nhân web trong môi trường web thực tế. Không giống như các tiêu chuẩn hiện có, tiêu chuẩn này sử dụng các trang web thực tế và yêu cầu nhiều chế độ tương tác khác nhau (ví dụ: hiểu video, điều hướng 3D). Mỗi câu hỏi đều có câu trả lời ngắn gọn và đường dẫn điều hướng được xác minh bởi con người, cho phép đánh giá minh bạch. Các nghiên cứu trên người cho thấy các câu hỏi có thể giải được nhưng khó (độ chính xác 84,7%), và việc thiếu kiến thức và bỏ sót chi tiết là nguyên nhân chính dẫn đến thất bại. ChatGPT Agent đạt độ chính xác 65,8%, cao hơn đáng kể so với các tác nhân khác, nhưng hiệu suất ở mức độ con người đòi hỏi khả năng điều khiển chính xác, lọc dữ liệu phức tạp và tốc độ thực thi được cải thiện. BEARCUBS sẽ được cập nhật và bảo trì định kỳ.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu BEARCUBS, một chuẩn mực mới để đánh giá hiệu suất của các tác nhân web trong môi trường web thực tế.
So sánh khả năng và trạng thái của nhiều tác nhân web khác nhau bao gồm cả ChatGPT Agent.
Đề Xuất hướng đi tương lai cho các tác nhân web (kiểm soát chính xác, lọc dữ liệu phức tạp, cải thiện tốc độ thực thi).
Trình bày khả năng phân tích so sánh các chiến lược tìm kiếm thông tin trên web của con người và các chiến lược của tác nhân.
Limitations:
Số lượng câu hỏi đánh giá tương đối nhỏ (111).
Cần xem xét thêm về mức độ khó và tính đa dạng của các loại câu hỏi.
Cần phải nghiên cứu thêm để thu hẹp khoảng cách với hiệu suất ở mức độ con người.
Nhu cầu duy trì khả năng thích ứng chuẩn mực với những thay đổi liên tục trong môi trường web.
👍