[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Created by
  • Haebom

作者

Yulun Jiang, Yekun Chai, Maria Brbi c, Michael Moor

概要

MARBLEは、マルチモーダル言語モデル(MLLM)の多段階推論能力を評価するための新しいベンチマークです。既存のベンチマークが単純なマルチモーダル質問に焦点を当てたのとは異なり、MARBLEは、空間的、視覚的、物理的制約の下で多段階計画の確立と理解を必要とするM-PortalとM-Cubeの2つの課題で構成されています。 12の最先端MLLMを対象とした実験の結果、モデルはM-Portalでほぼランダムなレベルの性能を示し、M-Cubeでは0%の精度を記録しました。これは、複雑な推論が依然としてMLLMの大きな課題であることを示唆している。また、視覚情報抽出の難しさがMLLMの性能低下に影響を与える要因であることを示している。

Takeaways、Limitations

Takeaways:
MLLMの多段階マルチモーダル推論能力の限界を明確に示す新しいベンチマークを提示
視覚情報処理の難しさがMLLMの性能低下の主な原因であることを明らかにした。
今後のマルチモーダル推論モデル開発のための重要な方向性の提示。
Limitations:
現在のベンチマークの課題は非常に難しく、最先端モデルもほぼランダムレベルの性能を見せている。
M-Cubeの課題では、すべてのモデルが0%の精度を記録しているため、課題の難易度を調整する必要があるかもしれません。
限られた数のモデルのみが評価に使用されます。より多くのモデルの評価が必要です。
👍