Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning

Created by
  • Haebom

作者

Lang Mei, Zhihan Yang, Chong Chen

概要

本論文では、大規模言語モデル(LLM)と検索エンジンを統合して、LLMの内部事前訓練知識と外部情報を活用する研究について説明します。特に、強化学習(RL)を介して検索エンジンとの多回転相互作用を介してLLM推論を向上させる有望なパラダイムとして提示されています。既存のRLベースの検索エージェントは、検索計画と質問回答(QA)操作の両方を処理するために単一のLLMに依存しています。これは、2つの機能を同時に最適化する能力を制限します。本稿では、高品質のQAを確保するために、大規模で固定されたLLM(GPT-4、DeepSeek-R1など)を使用する洗練されたAI検索システムを考慮して、検索計画に専念する小型で訓練可能なLLMを活用する、より効果的で効率的なアプローチを提案します。 AI-SearchPlannerという新しい強化学習フレームワークを提示し、検索計画に集中して固定QAモデルのパフォーマンスを向上させるように設計されています。 3つのコアイノベーション(1)サーチプランナーとジェネレータアーキテクチャの分離、(2)サーチプランのためのデュアル報酬のソート、(3)プランユーティリティとコストのPareto最適化によって目標を達成します。実際のデータセットの広範な実験により、AI-SearchPlannerは効果と効率の両方で既存のRLベースの検索エージェントより優れており、さまざまな固定QAモデルとデータドメインで強力な一般化機能を示しています。

Takeaways、Limitations

Takeaways:
固定された高品質のQAモデルを使用して検索計画に集中することで、RLベースの検索エージェントの効率と効果を向上させることができます。
検索プランナーとジェネレータアーキテクチャの分離、デュアル報酬の並べ替え、パレットの最適化などの新しい手法により、パフォーマンスの向上を達成しました。
さまざまな固定QAモデルとデータドメインで強力な一般化パフォーマンスを発揮します。
Limitations:
提案されたフレームワークの性能は、使用される固定QAモデルの品質に依存する可能性があります。
実験は特定のデータセットに限定されており、他のデータセットの一般化パフォーマンスをさらに検証する必要があります。
Pareto最適化のパラメータ設定に関する追加の研究が必要になる場合があります。
👍