Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AI-SearchPlanner: Tìm kiếm tác nhân mô-đun thông qua học tăng cường đa mục tiêu tối ưu Pareto

작성자
  • Haebom

Tác giả

Lang Mei, Zhihan Yang, Sùng Thần

Phác thảo

Bài báo này khám phá sự tích hợp của một mô hình ngôn ngữ quy mô lớn (LLM) với một công cụ tìm kiếm, tận dụng kiến ​​thức được đào tạo trước nội bộ của LLM và thông tin bên ngoài. Cụ thể, chúng tôi đề xuất một phương pháp để tăng cường suy luận LLM thông qua nhiều vòng tương tác với công cụ tìm kiếm bằng cách sử dụng học tăng cường (RL). Các tác nhân tìm kiếm dựa trên RL hiện có dựa vào một LLM duy nhất để xử lý cả nhiệm vụ lập kế hoạch tìm kiếm và trả lời câu hỏi (QA), hạn chế khả năng tối ưu hóa đồng thời cả hai chức năng. Xem xét tính thực tiễn của các hệ thống tìm kiếm AI phức tạp sử dụng LLM cố định lớn để đảm bảo QA chất lượng cao, chúng tôi đề xuất AI-SearchPlanner , một khuôn khổ học tăng cường mới sử dụng LLM nhỏ, có thể đào tạo được dành riêng cho lập kế hoạch tìm kiếm . AI-SearchPlanner cải thiện hiệu suất của các mô hình QA cố định thông qua ba cải tiến chính: tách biệt kiến ​​trúc của trình lập kế hoạch và trình tạo tìm kiếm, sắp xếp phần thưởng kép cho lập kế hoạch tìm kiếm và tối ưu hóa Pareto về tiện ích và chi phí của kế hoạch. Các thử nghiệm mở rộng trên các tập dữ liệu thực tế chứng minh rằng AI-SearchPlanner vượt trội hơn các tác nhân tìm kiếm dựa trên RL hiện có về cả hiệu quả và tính hiệu suất, đồng thời thể hiện khả năng khái quát hóa mạnh mẽ trên nhiều mô hình QA cố định và miền dữ liệu.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ tìm kiếm dựa trên RL mới (AI-SearchPlanner) giúp cải thiện hiệu quả và hiệu suất đồng thời bằng cách tận dụng các mô hình QA cố định, hiệu suất cao.
Cải thiện hiệu suất bằng cách tách biệt quá trình lập kế hoạch tìm kiếm và trả lời câu hỏi, sử dụng các mô hình được tối ưu hóa cho từng nhiệm vụ.
Cân bằng chất lượng và hiệu quả của các kế hoạch tìm kiếm thông qua sắp xếp bù trừ kép và tối ưu hóa Pareto.
Nó cho thấy hiệu suất tổng quát tuyệt vời trên nhiều mô hình QA cố định và miền dữ liệu khác nhau.
Limitations:
Hiệu suất của phương pháp đề xuất có thể phụ thuộc vào chất lượng của mô hình QA cố định được sử dụng.
Phạm vi của tập dữ liệu thử nghiệm có thể bị hạn chế và cần phải xác minh hiệu suất tổng quát trên các tập dữ liệu khác.
Khi độ phức tạp của AI-SearchPlanner tăng lên, chi phí tính toán của nó có thể tăng lên.
Cần có những đánh giá hiệu suất bổ sung cho việc lập kế hoạch tìm kiếm dài hạn và các truy vấn phức tạp.
👍