Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

WebArXiv: Đánh giá các tác nhân đa phương thức trên các tác vụ arXiv bất biến theo thời gian

Created by
  • Haebom

Tác giả

Tử Hào Tôn, Lăng Thần

Phác thảo

Để Giải quyết những thách thức trong việc đánh giá các tác nhân web tự động dựa trên mô hình ngôn ngữ quy mô lớn (LLM), bài báo này trình bày WebArXiv, một chuẩn mực tĩnh và bất biến theo thời gian được xây dựng trên nền tảng arXiv. WebArXiv đảm bảo các đánh giá có thể tái tạo và đáng tin cậy bằng cách sử dụng ảnh chụp nhanh web cố định, một sự thật cơ bản mang tính quyết định và các lộ trình hành động được chuẩn hóa. Chúng tôi xác định một chế độ lỗi phổ biến, "Phản ánh Lịch sử Cứng nhắc", trong đó các tác nhân phụ thuộc quá nhiều vào lịch sử tương tác trong quá khứ của chúng, và đề xuất một cơ chế phản ánh động nhẹ, có thể truy xuất có chọn lọc các bước tương ứng trong quá khứ trong quá trình ra quyết định. Chúng tôi đánh giá mười tác nhân web hiện đại trên WebArXiv để chứng minh sự khác biệt về hiệu suất giữa các tác nhân và xác thực tính hiệu quả của chiến lược phản ánh mà chúng tôi đề xuất.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu WebArXiv, một chuẩn mực tác nhân web tĩnh và không thay đổi theo thời gian dựa trên arXiv, cho phép đánh giá đáng tin cậy và có thể tái tạo.
Chúng tôi xác định "Phản ánh lịch sử cứng nhắc", một chế độ lỗi phổ biến của các tác nhân web và đề xuất một cơ chế phản ánh động nhẹ hiệu quả để giải quyết vấn đề này.
Thể hiện rõ ràng sự khác biệt về hiệu suất giữa các tác nhân web hiện đại.
Limitations:
Vì WebArXiv bị giới hạn trong nền tảng arXiv nên nó có thể không phản ánh được sự đa dạng của các trang web khác.
Cần có thêm nghiên cứu về hiệu suất tổng quát của cơ chế phản xạ động được đề xuất.
Các loại tác nhân web được sử dụng trong quá trình đánh giá có thể bị hạn chế.
👍