本稿では、大規模言語モデル(LLM)と検索エンジンを統合して、LLMの内部事前訓練の知識と外部情報を活用する研究について説明します。具体的には、強化学習(RL)を介して検索エンジンとの多重相互作用でLLM推論を向上させる方法を提案します。既存のRLベースの検索エージェントは、検索計画と質問回答(QA)操作の両方を処理する単一のLLMに依存して、2つの機能を同時に最適化することに制限があります。本稿では、高品質のQAを確保するために、大規模で固定されたLLMを使用する洗練されたAI検索システムの現実的なアプローチを考慮して、検索計画に専念する小型で訓練可能なLLMを活用する新しい強化学習フレームワークであるAI-SearchPlannerを提案します。 AI-SearchPlannerは、検索プランナーとジェネレーターのアーキテクチャの分離、検索計画のための二重補償の整列、計画ユーティリティとコストのパレート最適化という3つのコアイノベーションによって、固定QAモデルのパフォーマンスを向上させます。実際のデータセットの広範な実験により、AI-SearchPlannerは従来のRLベースの検索エージェントよりも効率性と有効性の両方で優れており、さまざまな固定QAモデルとデータドメインで強力な一般化能力を示しています。