Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

Created by
  • Haebom

作者

Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Yuan Wang, Quanxing Zha, Sunhao Dai, Changhua Meng

概要

本論文は、大規模言語モデル(LLM)の複雑な問題解決能力を向上させるために、情報検索拡張生成(RAG)の_____ T7877_____を克服する新しいアプローチであるAtom-Searcherを提案する。既存のエージェントベースの深層研究アプローチが、結果ベースの強化学習の限界(矛盾する傾き、補償の希少性)に直面する問題を解決するために、推論プロセスを細分化された機能的単位(Atomic Thought)に分解し、各単位に対する補償(Atomic Thought Rewards、RR)を提供する推論補償モデル。 Atom-Searcherはカリキュラム学習方式の報酬スケジュールを通じて効率的な推論経路への収束を加速する。 7つのベンチマーク実験により、既存の最高性能を凌駕する結果を示し、テスト時間の計算スケーラビリティ、RRMに対する監督基準の提供、解釈可能で人間と同様の推論パターンなどの利点を提示する。

Takeaways、Limitations

Takeaways:
エージェントベースの深層研究における強化学習の限界を克服する新しい方法の提示(Atomic Thought, ATR)
効率的な推論経路学習のためのカリキュラムベースの報酬スケジュールの導入
テスト時間の計算スケーラビリティの確保
解釈可能で人間に似た推論プロセス
さまざまなベンチマークで既存の最高性能を向上
Limitations:
提案された方法の一般化性能の追加検証が必要
さまざまな種類の問題に対する適用性と拡張性の研究が必要
推論補償モデル(RRM)の設計と学習の詳細な説明不足の可能性
Atom-Searcherの性能向上がATRの効果によるのか、それとも他の要因のためかは明確に区別することが難しい。
👍