Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes

Created by
  • Haebom

作者

Nilay Pande, Sahiti Yerramilli, Jayant Sravan Tamarapalli, Rynaa Grover

概要

本稿では、マルチモード大規模言語モデル(MLLM)の数学的および空間的推論能力を評価するための新しいベンチマークであるMaRVL-QAを紹介します。 MaRVL-QAは、数学的表面プロットを使用して、意味的なノイズなしで推論能力を純粋に評価できるように設計されています。 2つの新しい課題、すなわち局所最大値などの特徴を識別し、列挙する位相計算と、幾何学的変換を認識する変換認識とで構成されています。実験結果は、最先端のMLLMでさえ、強力な空間推論ではなく、表面的なヒューリスティックに依存する傾向があることを示しています。 MaRVL-QAは、MLLMの推論能力を向上させるための研究に役立ちます。

Takeaways、Limitations

Takeaways:
マルチモーダル大規模言語モデル(MLLM)の数学的および空間的推論能力評価のための新しいベンチマークMaRVL-QAの提示。
最先端MLLMの推論能力限界を明確に明らかにする。
MLLMの空間推論能力向上研究のための新しい方向性の提示
Limitations:
MaRVL-QAは数学的表面プロットに限定されており、実際の世界画像の一般化能力にはさらなる研究が必要です。
ベンチマークの複雑さと難易度はMLLMの発展速度に応じて調整する必要があります。
👍