Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Vượt qua mười lượt: Mở khóa tìm kiếm Agentic tầm xa với RL không đồng bộ quy mô lớn

Created by
  • Haebom

Tác giả

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

Phác thảo

Bài báo này giới thiệu ASearcher, một dự án nguồn mở nhằm nâng cao khả năng tìm kiếm của các tác nhân dựa trên mô hình ngôn ngữ quy mô lớn (LLM). Mặc dù các tác nhân dựa trên LLM hiện có vượt trội trong việc xử lý các tác vụ phức tạp, đòi hỏi nhiều kiến thức, nhưng chúng lại thiếu khả năng tìm kiếm thông minh ở cấp độ chuyên gia (ví dụ: giải quyết các câu hỏi mơ hồ, tạo ra các kết quả truy xuất chính xác, phân tích kết quả và khám phá toàn diện). Để khắc phục những hạn chế này, ASearcher trình bày một khuôn khổ đào tạo dựa trên học tăng cường không đồng bộ, có khả năng mở rộng và hiệu quả. Cụ thể, ASearcher vượt trội hơn các tác nhân nguồn mở hiện có trên các chuẩn mực xBench và GAIA thông qua đào tạo học tăng cường không đồng bộ (RL) có khả năng mở rộng, cho phép tìm kiếm tầm nhìn dài hạn và một tác nhân LLM dựa trên lời nhắc, tự động tạo ra một tập dữ liệu trả lời câu hỏi (QA) chất lượng cao. Nó cũng chứng minh khả năng tìm kiếm cực kỳ dài hạn, với các lệnh gọi công cụ vượt quá 40 lượt và đầu ra vượt quá 150.000 mã thông báo. Mô hình, dữ liệu đào tạo và mã được công khai.

Takeaways, Limitations

Takeaways:
Một khuôn khổ đào tạo tác nhân LLM dựa trên học tăng cường không đồng bộ có khả năng mở rộng và hiệu quả được trình bày.
Tự động tạo bộ dữ liệu QA chất lượng cao bằng cách sử dụng các tác nhân LLM dựa trên lời nhắc
Cải thiện hiệu suất trong các tiêu chuẩn xBench và GAIA so với các tác nhân nguồn mở hiện có (dựa trên Avg@4)
Triển khai khả năng tìm kiếm cực kỳ dài hạn (gọi công cụ 40 lượt hoặc hơn, đầu ra 150 nghìn mã thông báo hoặc hơn)
ĐóNg góp vào nghiên cứu và phát triển bằng cách được phát hành dưới dạng mã nguồn mở
Limitations:
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của phương pháp được trình bày trong bài báo này.
Cần có thêm các đánh giá hiệu suất trên nhiều lĩnh vực và nhiệm vụ khác nhau
Cần phải cân nhắc đến các vấn đề về an toàn và đạo đức của các tác nhân.
👍