Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning

Created by
  • Haebom

作者

Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

概要

この論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しい強化学習ベースのポストトレーニングフレームワークであるAutoRefineを提案します。従来の検索拡張推論スキームが無関係であるかノイズの多い情報を検索する問題を解決するために、AutoRefineは「検索 - 精製 - 事故」パラダイムを導入して、連続検索呼び出しの間に明示的な知識精製ステップを追加します。これにより、モデルは回答を生成する前に証拠を繰り返しフィルタリング、抽出、および整理できます。また、グループ相対ポリシーの最適化を使用して、回答精度の報酬とカスタム検索固有の報酬を統合します。シングルホップとマルチホップのクエリ応答ベンチマークの実験の結果、AutoRefineは、特に複雑なマルチホップ推論シナリオでは、従来の方法よりもパフォーマンスが大幅に向上することを示しています。詳細な分析は、AutoRefineが頻繁かつ高品質の検索を実行し、証拠を効果的に統合することを示しています。

Takeaways、Limitations

Takeaways:
大規模言語モデルの推論性能を改善する新しい方法論の提示
「検索・精製・事故」パラダイムによる既存検索増強推論の限界克服
グループ相対方針最適化による効果的な報酬設計
複雑なマルチホップ推論問題における従来の方法と比較した性能向上の確認
高品質の検索と効果的な証拠総合能力を実証
Limitations:
AutoRefineのパフォーマンス向上が特定のベンチマークに限定される可能性
さまざまな種類の質問とデータセットの一般化パフォーマンス検証が必要
計算コストと時間の複雑さの分析不足
使用されるベンチマークデータの偏向性の考慮が必要
実際のアプリケーション環境でのパフォーマンス評価の欠如
👍