[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BEARCUBS: Một chuẩn mực cho các tác nhân web sử dụng máy tính

Created by
  • Haebom

Tác giả

Yixiao Song, Katherine Thái, Châu Minh Phạm, Yapei Chang, Mazin Nadaf, Mohit Iyyer

Phác thảo

Trong bài báo này, chúng tôi trình bày BEARCUBS, một chuẩn mực mới để đánh giá khả năng tìm kiếm thông tin của các tác nhân web trong môi trường web thực tế. BEARCUBS bao gồm 111 câu hỏi tìm kiếm thông tin, và không giống như các chuẩn mực hiện có, nó yêu cầu các trang web thực tế và nhiều tương tác đa phương thức (ví dụ: hiểu video, điều hướng 3D). Kết quả thử nghiệm trên người cho thấy độ khó của các câu hỏi là phù hợp (độ chính xác 84,7%), trong khi các tác nhân web hiện đại cho thấy độ chính xác thấp (lên đến 23,4%). Điều này nhấn mạnh tầm quan trọng của việc lựa chọn các nguồn thông tin đáng tin cậy và khả năng đa phương thức mạnh mẽ. BEARCUBS sẽ tiếp tục được cập nhật để đóng góp cho nghiên cứu về tác nhân web.

Takeaways, Limitations

Takeaways:
Giới thiệu chuẩn mực mới BEARCUBS để đánh giá hiệu suất của các tác nhân web trong môi trường web thực tế
Khắc phục những hạn chế của các chuẩn mực hiện có và nhấn mạnh nhu cầu tương tác giữa các phương thức khác nhau
Xác định nguyên nhân gây ra hiệu suất kém của các tác nhân web tiên tiến và đề xuất các cách cải thiện chúng (lựa chọn các nguồn đáng tin cậy, khả năng đa phương thức mạnh mẽ)
Cung cấp các tiêu chuẩn liên tục cho nghiên cứu đại lý web
Limitations:
Số lượng câu hỏi trong chuẩn mực hiện tại (111) có thể tương đối nhỏ.
BEARCUBS cần được cập nhật và bảo trì liên tục.
Tính phù hợp của các tiêu chuẩn phải được xem xét liên tục khi môi trường web thay đổi.
👍