Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MSARL: Decoupling Reasoning and Tool Use with Multi-Small-Agent Reinforcement Learning

Created by
  • Haebom

作者

Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li

概要

MSARLは、複数の小規模エージェントが労働分業を通じて協力するマルチエージェント強化学習フレームワークです。従来のツール統合推論システムは、1つの大きなモデルが長期推論と正確なツール操作を混在させ、認知負荷干渉と不安定な調整をもたらし、MSARLは推論とツール使用を明示的に分離します。推論エージェントは問題を分解し、ツールコールを計画し、いくつかのツールエージェントは特定の外部ツールに特化し、それぞれ模倣学習と役割別報酬を使用する強化学習の組み合わせによって訓練されます。コードの実行を含む数学的な問題解決では、MSARLは単一のエージェント基準モデルよりも推論安定性と最終回答精度を大幅に向上させます。さらに、このアーキテクチャはさまざまなツール使用タスクに一般化されており、小型エージェントを使用した認知役割の分離は、マルチエージェントAI設計のためのスケーラブルな青写真であることを示しています。

Takeaways、Limitations

Takeaways:
小型エージェントベースのマルチエージェントシステムは、認知負荷干渉を減らし、推論の安定性と精度を向上させることができることを示しています。
推論とツール使用を明確に分離する設計は、さまざまなツール使用タスクに一般化できる拡張可能なアーキテクチャであることを示唆しています。
模倣学習と強化学習を組み合わせたトレーニング方法は、ツールエージェントの効率的な学習を可能にします。
Limitations:
現在は数学的な問題解決とコードの実行に焦点を当てており、他の種類のタスクへの一般化の可能性に関するさらなる研究が必要です。
多数の小型エージェント間の効率的な協調及び調整メカニズムのさらなる研究が必要となるかもしれない。
実際の世界の複雑な問題に適用するためのスケーラビリティと安定性の追加検証が必要です。
👍