Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

COMMA: A Communicative Multimodal Multi-Agent Benchmark

Created by
  • Haebom

作者

Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu

概要

本論文は、大規模基礎モデルベースのマルチモーダルエージェントの急速な発展にもかかわらず、コラボレーションの課題において、エージェント間の言語ベースのコミュニケーションの可能性が大幅に見落とされたことを指摘しています。特に、人間とのコミュニケーションにおける実際の環境展開における効果を理解する上で重要な違いを提示します。既存のエージェントベンチマークは、エージェント間のコミュニケーションとコラボレーションの重要な側面、特にエージェントが情報へのアクセス権が不均一で個々の能力を超える課題を達成するために一緒に努力しなければならないシナリオに対処していません。このギャップを埋めるために、この論文は、言語コミュニケーションを通じてマルチモーダルマルチエージェントシステムのコラボレーションパフォーマンスを評価するように設計された新しいパズルベンチマークであるCOMMAを提示します。 COMMAベンチマークは、さまざまなマルチモーダルパズルを提供し、コミュニケーションコラボレーション環境におけるエージェントの能力の4つの主要カテゴリの包括的な評価を提供します。研究結果は、GPT-4oやo4-miniなどの強力な独占モデルと推論モデルを含む最先端モデルの驚くべき弱点を示しています。 R1-OnevisionやLLaVA-CoTなどの多くの思考プロセス推論モデルは、エージェント間のコラボレーションにおけるランダムベースラインよりも優れていないため、コミュニケーション能力の向上の潜在的な成長領域を示しています。

Takeaways、Limitations

Takeaways:マルチモーダルマルチエージェントシステムの共同言語通信能力を評価するための新しいベンチマーク(COMMA)を提示します。最先端モデルのエージェント間のコラボレーション能力の脆弱性を明らかにし、今後の研究方向を提示します。特に、思考プロセス推論モデルのコミュニケーション能力を向上させる必要性を強調します。
Limitations: COMMAベンチマーク自体の一般化の可能性と、さまざまなコラボレーションシナリオへの適用可能性に関する追加の研究が必要です。現在評価されているモデル以外のさまざまなモデルの追加の実験が必要です。実際の世界の複雑なコラボレーション課題を完全に反映できない可能性があります。
👍