Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

Created by
  • Haebom

作者

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

概要

LiveMCP-101ベンチマークは、さまざまなMCP(Model Context Protocol)ツールを使用して複雑なマルチレベルタスクを解決するAIエージェントの能力を評価するように設計されています。 101の実際の世界クエリで構成され、Web検索、ファイル操作、数学的推論、データ分析など、複数のMCPツールの調整された使用が必要です。従来のAPI出力ベースの評価方式とは異なり、正解実行計画を活用して、実際の環境の動的特性をよりよく反映します。実験の結果、最先端のLLMも60%未満の成功率を示し、トークン使用の非効率性など、さまざまな失敗モードが明らかになりました。これは、ツールの調整の難しさと将来のモデル改善の方向性を提示します。

Takeaways、Limitations

Takeaways:
実際の世界環境でマルチツールを使用して複雑な作業を実行する能力を評価するための厳しい基準を提示します。
最先端LLMのツール調整能力の限界を明確に示しています。
ツールの使用中に発生するさまざまな故障モードと非効率性を分析し、モデル改善の方向性を提示します。
自律的なAIシステム開発のための重要な発展方向を提示します。
Limitations:
ベンチマークの規模(101問)は比較的制限的かもしれません。
実際の世界のさまざまな状況を完全に反映できない可能性があります。
評価方式の改善と、より多様なツールの統合が必要になる場合があります。
👍