Bài báo này thảo luận về nghiên cứu tích hợp các mô hình ngôn ngữ quy mô lớn (LLM) với các công cụ tìm kiếm, tận dụng kiến thức được đào tạo sẵn nội bộ của LLM và thông tin bên ngoài. Cụ thể, học tăng cường (RL) được trình bày như một mô hình đầy hứa hẹn để cải thiện suy luận LLM thông qua các tương tác nhiều lượt với công cụ tìm kiếm. Các tác nhân tìm kiếm dựa trên RL hiện tại dựa vào một LLM duy nhất để xử lý cả nhiệm vụ lập kế hoạch tìm kiếm và trả lời câu hỏi (QA), điều này hạn chế khả năng tối ưu hóa đồng thời cả hai chức năng. Xem xét các hệ thống tìm kiếm AI phức tạp sử dụng LLM cố định lớn (ví dụ: GPT-4, DeepSeek-R1) để đảm bảo QA chất lượng cao, bài báo này đề xuất một phương pháp hiệu quả hơn, tận dụng một LLM nhỏ, có thể đào tạo được chuyên dụng cho việc lập kế hoạch tìm kiếm. Chúng tôi trình bày một khuôn khổ học tăng cường mới, AI-SearchPlanner, được thiết kế để cải thiện hiệu suất của các mô hình QA cố định bằng cách tập trung vào lập kế hoạch tìm kiếm. Mục tiêu này đạt được thông qua ba cải tiến chính: (1) tách biệt kiến trúc của trình lập kế hoạch tìm kiếm và trình tạo, (2) sắp xếp phần thưởng kép cho lập kế hoạch tìm kiếm, và (3) tối ưu hóa Pareto về tiện ích và chi phí của kế hoạch. Thông qua các thử nghiệm mở rộng trên các tập dữ liệu thực tế, chúng tôi chứng minh rằng AI-SearchPlanner vượt trội hơn các tác nhân tìm kiếm dựa trên RL hiện có về cả hiệu quả và năng suất, đồng thời thể hiện khả năng khái quát hóa mạnh mẽ trên nhiều mô hình QA cố định và miền dữ liệu.