Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Ten Turns: Unlocking Long-Horizo​​n Agentic Search with Large-Scale Asynchronous RL

Created by
  • Haebom

作者

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

ASearcher: Large-Scale RL Training of Search Agents

概要

本論文は、外部ツールを統合して複雑な知識集約的なタスクを処理するLLMベースのエージェントの最近の進歩に注目しています。特に、検索ツールの重要性を強調し、オープンソースエージェントの検索能力向上を目指しています。 ASearcherは大規模なRL(強化学習)トレーニングのためのオープンソースプロジェクトで、スケーラビリティ、効率性、データ品質の問題を解決します。 ASearcherは、プロンプトベースのLLMエージェントを使用して高品質で難しい質問と回答(QA)を生成し、大規模なQAデータセットを構築します。 RLトレーニングを通じて、QwQ-32BエージェントはxBenchで78.0%、GAIAで34.3%のAvg @ 4改善を達成しました。また、100ターン以上のツール呼び出しと400k以上の出力トークンを記録する長期間の検索能力を示しています。 ASearcher-Web-QwQはxBenchで51.1、GAIAで58.7のAvg@4スコアを記録し、既存のオープンソース32Bエージェントを上回ります。ゼロショット遷移とテスト時間の検索方法により、商用システムレベルのパフォーマンスを達成できることを実証しています。

Takeaways、Limitations

Takeaways:
大規模なRLトレーニングのための効率的な完全非同期トレーニング方式の提示
プロンプトベースのLLMを活用した高品質QAデータセットの自動生成。
長期検索能力の向上(100ターン以上のツール呼び出し)。
シンプルなエージェント設計で、既存のオープンソース32Bエージェントのパフォーマンスを上回ります。
ゼロショット遷移学習による商用システムレベルのパフォーマンスの達成可能性の提示
モデル、トレーニングデータ、コード公開( https://github.com/inclusionAI/ASearcher )。
Limitations:
論文に具体的なLimitationsへの言及はありません。 (追加の研究と改善が必要)。
👍