[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Created by
  • Haebom

作者

Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han

概要

本稿では、大規模言語モデル(LLM)の推論とテキスト生成の効率を向上させるために、外部の知識と最新の情報を取得する方法を紹介します。既存の検索エンジンを活用する方式の限界を克服するために、強化学習(RL)ベースのSearch-R1フレームワークを紹介します。 Search-R1は、ステップバイステップの推論プロセスでLLMが自律的に複数の検索クエリを生成し、検索結果を利用して推論プロセスを最適化します。トークンマスキング技術と簡単な結果ベースの補償関数を使用して、安定したRL学習を実行します。 7つのクエリ応答データセット実験の結果、Search-R1は従来のRAG技術と比較してQwen2.5-7Bモデルで41%、Qwen2.5-3Bモデルで20%のパフォーマンス向上を示しました。また、RL最適化法、LLM選択、検索結果長動力学の実験的分析結果も提示する。コードとモデルのチェックポイントはFitHubで公開されています。

Takeaways、Limitations

Takeaways:
強化学習は、LLMが検索エンジンと効率的に対話し、推論性能を向上させることができることを示しています。
トークンマスキングと簡単な補償関数を利用した安定したRL学習法の提示
様々なLLMとデータセットの実験結果を通じて、Search-R1の卓越性を実証。
検索結果の長さの動力学などの洞察を提供します。
コードとモデルチェックポイントの開示による再現性の確保とさらなる研究可能性の提示。
Limitations:
特定のLLMとデータセットの実験結果のみが提示され、一般化の可能性に関するさらなる研究が必要です。
複雑な質問やさまざまな知識領域のパフォーマンス評価が不足しています。
補償関数の設計に関する追加の研究が必要な場合があります。
検索エンジンのパフォーマンスに依存する側面の存在。
👍