Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

WebWalker: Đánh giá chuẩn LLM trong Web Traversal

Created by
  • Haebom

Tác giả

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Chu, Pengjun Xie, Fei Huang

Phác thảo

Thế hệ tăng cường truy xuất (RAG) vượt trội trong các tác vụ trả lời câu hỏi mở, nhưng các công cụ tìm kiếm hiện tại chỉ truy xuất thông tin hời hợt, hạn chế khả năng xử lý thông tin phức tạp, nhiều lớp của LLM. Trong bài báo này, chúng tôi trình bày WebWalkerQA, một chuẩn mực để đánh giá khả năng khám phá web của LLM. WebWalkerQA đánh giá khả năng trích xuất dữ liệu chất lượng cao một cách có hệ thống của LLM bằng cách khám phá các trang con của một trang web. Hơn nữa, chúng tôi đề xuất WebWalker, một khuôn khổ đa tác tử mô phỏng quá trình khám phá web giống con người bằng cách sử dụng mô hình khám phá-phê bình. Kết quả thực nghiệm chứng minh rằng WebWalkerQA là một nhiệm vụ đầy thách thức, và chúng tôi chứng minh hiệu quả của RAG kết hợp với WebWalker thông qua tích hợp theo chiều ngang và chiều dọc trong các tình huống thực tế.

Takeaways, Limitations

Takeaways:
WebWalkerQA cung cấp chuẩn mực mới để đánh giá kỹ năng điều hướng web của LLM.
Chúng tôi chứng minh rằng WebWalker là một khuôn khổ đa tác nhân hiệu quả giúp cải thiện hiệu suất của RAG.
Thể hiện hiệu quả của việc tích hợp theo chiều ngang và chiều dọc của RAG và WebWalker trong các tình huống thực tế.
Limitations:
Cần phân tích sâu hơn về độ khó của WebWalkerQA và sự khác biệt giữa nó và môi trường web thực tế.
Cần nghiên cứu thêm về khả năng mở rộng và thích ứng của WebWalker với nhiều kiến trúc trang web khác nhau.
Cần nghiên cứu thêm để cải thiện hiệu suất của WebWalker được đề xuất.
👍