Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning

Created by
  • Haebom

作者

Lang Mei, Zhihan Yang, Chong Chen

概要

本稿では、大規模言語モデル(LLM)と検索エンジンを統合して、LLMの内部事前訓練の知識と外部情報を活用する研究について説明します。具体的には、強化学習(RL)を介して検索エンジンとの多重相互作用でLLM推論を向上させる方法を提案します。既存のRLベースの検索エージェントは、検索計画と質問回答(QA)操作の両方を処理する単一のLLMに依存して、2つの機能を同時に最適化することに制限があります。本稿では、高品質のQAを確保するために、大規模で固定されたLLMを使用する洗練されたAI検索システムの現実的なアプローチを考慮して、検索計画に専念する小型で訓練可能なLLMを活用する新しい強化学習フレームワークであるAI-SearchPlannerを提案します。 AI-SearchPlannerは、検索プランナーとジェネレーターのアーキテクチャの分離、検索計画のための二重補償の整列、計画ユーティリティとコストのパレート最適化という3つのコアイノベーションによって、固定QAモデルのパフォーマンスを向上させます。実際のデータセットの広範な実験により、AI-SearchPlannerは従来のRLベースの検索エージェントよりも効率性と有効性の両方で優れており、さまざまな固定QAモデルとデータドメインで強力な一般化能力を示しています。

Takeaways、Limitations

Takeaways:
固定された高性能QAモデルを活用して効率性と効果性を同時に改善する新しいRLベースの検索フレームワーク(AI-SearchPlanner)の提示。
検索プランと質問回答を分離し、各タスクに最適化されたモデルを使用することでパフォーマンスを向上させます。
二重報酬ソートとパレート最適化により、検索計画の質と効率をバランスよく考慮します。
さまざまな固定QAモデルとデータドメインで優れた一般化性能を示しています。
Limitations:
提案された方法の性能は、使用する固定QAモデルの品質に依存し得る。
実験データセットの範囲は限られている可能性があり、他のデータセットでの一般化パフォーマンス検証が必要です。
AI-SearchPlannerの複雑さが増すにつれて、計算コストが増加する可能性があります。
長期的な検索計画と複雑な質問のパフォーマンス評価がさらに必要です。
👍