Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

Created by
  • Haebom

作者

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

概要

本稿では、大規模言語モデル(LLM)ベースのエージェントの検索能力を向上させるためのオープンソースプロジェクトASearcherを紹介します。既存のLLMベースのエージェントは複雑な知識集約的なタスクを処理するのに優れたパフォーマンスを示していますが、専門家レベルの検索インテリジェンス(あいまいな質問解決、正確な検索生成、結果分析、徹底的な検索)には不十分です。 ASearcherは、この制限を克服するために拡張可能で効率的な非同期強化学習ベースのトレーニングフレームワークを提示します。特に、長い時系列検索を可能にするスケーラブルな非同期強化学習(RL)トレーニングと高品質のクエリ応答(QA)データセットを自動生成するプロンプトベースのLLMエージェントを介して、xBenchとGAIAのベンチマークで既存のオープンソースエージェントよりも優れたパフォーマンスを達成しました。 40ターン以上のツール呼び出しと150kトークン以上の出力を生成する極端な長期検索能力を示すのが特徴だ。モデル、トレーニングデータおよびコードは公に提供される。

Takeaways、Limitations

Takeaways:
スケーラブルで効率的な非同期強化学習ベースのLLMエージェントトレーニングフレームワークの提示
プロンプトベースのLLMエージェントを使用した高品質QAデータセットの自動生成
既存のオープンソースエージェントと比較してXBenchとGAIAのベンチマークでパフォーマンスを向上させる(Avg @ 4ベース)
極端な長期検索能力の実装(40ターン以上のツール呼び出し、150kトークン以上の出力)
オープンソースとして公開され、研究開発に貢献
Limitations:
本論文で提示した方法論の一般化の可能性に関するさらなる研究の必要性
さまざまなドメインやタスクのパフォーマンス評価を追加する必要があります
エージェントの安全性と倫理的問題の考慮が必要
👍