Bài báo này khám phá sự tích hợp của một mô hình ngôn ngữ quy mô lớn (LLM) với một công cụ tìm kiếm, tận dụng kiến thức được đào tạo trước nội bộ của LLM và thông tin bên ngoài. Cụ thể, chúng tôi đề xuất một phương pháp để tăng cường suy luận LLM thông qua nhiều vòng tương tác với công cụ tìm kiếm bằng cách sử dụng học tăng cường (RL). Các tác nhân tìm kiếm dựa trên RL hiện có dựa vào một LLM duy nhất để xử lý cả nhiệm vụ lập kế hoạch tìm kiếm và trả lời câu hỏi (QA), hạn chế khả năng tối ưu hóa đồng thời cả hai chức năng. Xem xét tính thực tiễn của các hệ thống tìm kiếm AI phức tạp sử dụng LLM cố định lớn để đảm bảo QA chất lượng cao, chúng tôi đề xuất AI-SearchPlanner , một khuôn khổ học tăng cường mới sử dụng LLM nhỏ, có thể đào tạo được dành riêng cho lập kế hoạch tìm kiếm . AI-SearchPlanner cải thiện hiệu suất của các mô hình QA cố định thông qua ba cải tiến chính: tách biệt kiến trúc của trình lập kế hoạch và trình tạo tìm kiếm, sắp xếp phần thưởng kép cho lập kế hoạch tìm kiếm và tối ưu hóa Pareto về tiện ích và chi phí của kế hoạch. Các thử nghiệm mở rộng trên các tập dữ liệu thực tế chứng minh rằng AI-SearchPlanner vượt trội hơn các tác nhân tìm kiếm dựa trên RL hiện có về cả hiệu quả và tính hiệu suất, đồng thời thể hiện khả năng khái quát hóa mạnh mẽ trên nhiều mô hình QA cố định và miền dữ liệu.