Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Created by
  • Haebom

作者

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

概要

この論文では、強化学習(RL)を使用して、大規模言語モデル(LLM)が推論プロセス中にリアルタイム検索を通じて自分で検索クエリを生成し、検索結果を活用して推論するSearch-R1フレームワークを提示します。 Search-R1は多重回線検索インタラクションを介してLLM推論パスを最適化し、信頼性の高いRL学習のために検索結果トークンマスキング技術と簡単な結果ベースの補償関数を使用します。 7つのクエリ応答データセットでの実験の結果、Search-R1は従来のRAG技術と比較してQwen2.5-7Bモデルで41%、Qwen2.5-3Bモデルで20%のパフォーマンス向上を示しました。さらに、RL最適化方法、LLM選択、検索結果の長さのダイナミクスに関する実験的な洞察を提供し、コードとモデルのチェックポイントを公に提供します。

Takeaways、Limitations

Takeaways:
強化学習を活用してLLMの検索能力を向上させる新しい方法論を提示します。
多回検索インタラクションとトークンマスキングによる信頼性の高いRL学習とパフォーマンスの向上を確認します。
さまざまなLLMとデータセットの実験結果を通じて一般化の可能性を検証
コードとモデル公開による再現性とその後の研究支援
Limitations:
特定のLLMとデータセットに限定された実験結果。さまざまなLLMとデータセットの追加実験が必要です。
結果に基づく補償関数の単純性による性能劣化の可能性より洗練された補償関数設計が必要です。
検索エンジンの特性への依存性。さまざまな検索エンジンのアプリケーションとパフォーマンスの比較が必要です。
👍