Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AI-SearchPlanner: Tìm kiếm tác nhân mô-đun thông qua học tăng cường đa mục tiêu tối ưu Pareto

Created by
  • Haebom

Tác giả

Lang Mei, Zhihan Yang, Sùng Thần

Phác thảo

Bài báo này thảo luận về nghiên cứu tích hợp các mô hình ngôn ngữ quy mô lớn (LLM) với các công cụ tìm kiếm, tận dụng kiến ​​thức được đào tạo sẵn nội bộ của LLM và thông tin bên ngoài. Cụ thể, học tăng cường (RL) được trình bày như một mô hình đầy hứa hẹn để cải thiện suy luận LLM thông qua các tương tác nhiều lượt với công cụ tìm kiếm. Các tác nhân tìm kiếm dựa trên RL hiện tại dựa vào một LLM duy nhất để xử lý cả nhiệm vụ lập kế hoạch tìm kiếm và trả lời câu hỏi (QA), điều này hạn chế khả năng tối ưu hóa đồng thời cả hai chức năng. Xem xét các hệ thống tìm kiếm AI phức tạp sử dụng LLM cố định lớn (ví dụ: GPT-4, DeepSeek-R1) để đảm bảo QA chất lượng cao, bài báo này đề xuất một phương pháp hiệu quả hơn, tận dụng một LLM nhỏ, có thể đào tạo được chuyên dụng cho việc lập kế hoạch tìm kiếm. Chúng tôi trình bày một khuôn khổ học tăng cường mới, AI-SearchPlanner, được thiết kế để cải thiện hiệu suất của các mô hình QA cố định bằng cách tập trung vào lập kế hoạch tìm kiếm. Mục tiêu này đạt được thông qua ba cải tiến chính: (1) tách biệt kiến ​​trúc của trình lập kế hoạch tìm kiếm và trình tạo, (2) sắp xếp phần thưởng kép cho lập kế hoạch tìm kiếm, và (3) tối ưu hóa Pareto về tiện ích và chi phí của kế hoạch. Thông qua các thử nghiệm mở rộng trên các tập dữ liệu thực tế, chúng tôi chứng minh rằng AI-SearchPlanner vượt trội hơn các tác nhân tìm kiếm dựa trên RL hiện có về cả hiệu quả và năng suất, đồng thời thể hiện khả năng khái quát hóa mạnh mẽ trên nhiều mô hình QA cố định và miền dữ liệu.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hiệu quả và tính hiệu suất của các tác nhân tìm kiếm dựa trên RL có thể được cải thiện bằng cách tập trung kế hoạch tìm kiếm bằng cách sử dụng mô hình QA cố định, chất lượng cao.
Cải thiện hiệu suất đạt được thông qua các kỹ thuật mới như tách biệt kiến ​​trúc của trình lập kế hoạch tìm kiếm và trình tạo, sắp xếp bù trừ kép và tối ưu hóa Pareto.
Nó thể hiện hiệu suất tổng quát mạnh mẽ trên nhiều mô hình QA cố định và miền dữ liệu khác nhau.
Limitations:
Hiệu suất của khuôn khổ đề xuất có thể phụ thuộc vào chất lượng của mô hình QA cố định được sử dụng.
Các thí nghiệm bị giới hạn trong một tập dữ liệu cụ thể và cần xác nhận thêm hiệu suất tổng quát hóa trên các tập dữ liệu khác.
Có thể cần nghiên cứu thêm về cài đặt tham số để tối ưu hóa Pareto.
👍