Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

Created by
  • Haebom

作者

Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

概要

この論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しい強化学習ベースのポストトレーニングフレームワークであるAutoRefineを提案します。既存の検索拡張推論方法が不適切または雑音の多い情報を検索する問題を解決するために、AutoRefineは「検索 - 精製 - 事故」という新しいパラダイムを導入します。これにより、モデルは、連続的な検索呼び出しの間に明示的な知識精製ステップを経て、証拠を繰り返しフィルタリング、抽出、および構成した後に答えを生成します。また、グループ相対ポリシーの最適化を使用して、回答精度の報酬とカスタム検索固有の報酬を統合します。シングルホップおよびマルチホップのクエリ応答ベンチマークの実験の結果、AutoRefineは、特に複雑なマルチホップ推論シナリオでは、従来の方法よりもパフォーマンスがはるかに優れていることを示しています。詳細な分析は、AutoRefineが頻繁かつ高品質の検索を実行し、証拠を効果的に統合することを示しています。

Takeaways、Limitations

Takeaways:
大規模言語モデルの推論能力の向上に新しいパラダイムを提示する。
「検索 - 精製 - 事故」方式を使用して、既存の方法の限界を克服します。
マルチホップ推論のパフォーマンスを大幅に向上させます。
グループ相対方針最適化を活用した効果的な報酬設計を提示します。
高品質の検索と証拠の統合により、推論プロセスの透明性を高めます。
Limitations:
AutoRefineのパフォーマンス向上が特定のベンチマークに限定される可能性があります。
計算コストが高くなる可能性があります。
さまざまな種類の質問とデータセットの一般化パフォーマンス評価がさらに必要です。
精製プロセスの詳細なメカニズムと最適化戦略の追加の説明が必要な場合があります。
👍