本論文では、大規模言語モデル(LLM)と検索エンジンを統合して、LLMの内部事前訓練知識と外部情報を活用する研究について説明します。特に、強化学習(RL)を介して検索エンジンとの多回転相互作用を介してLLM推論を向上させる有望なパラダイムとして提示されています。既存のRLベースの検索エージェントは、検索計画と質問回答(QA)操作の両方を処理するために単一のLLMに依存しています。これは、2つの機能を同時に最適化する能力を制限します。本稿では、高品質のQAを確保するために、大規模で固定されたLLM(GPT-4、DeepSeek-R1など)を使用する洗練されたAI検索システムを考慮して、検索計画に専念する小型で訓練可能なLLMを活用する、より効果的で効率的なアプローチを提案します。 AI-SearchPlannerという新しい強化学習フレームワークを提示し、検索計画に集中して固定QAモデルのパフォーマンスを向上させるように設計されています。 3つのコアイノベーション(1)サーチプランナーとジェネレータアーキテクチャの分離、(2)サーチプランのためのデュアル報酬のソート、(3)プランユーティリティとコストのPareto最適化によって目標を達成します。実際のデータセットの広範な実験により、AI-SearchPlannerは効果と効率の両方で既存のRLベースの検索エージェントより優れており、さまざまな固定QAモデルとデータドメインで強力な一般化機能を示しています。