Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models

Created by
  • Haebom

作者

Zesen Lyu, Dandan Zhang, Wei Ye, Fangdi Li, Zhihang Jiang, Yao Yang

概要

この論文では、ビジョン言語モデル(VLM)の空間推論能力を評価するための新しいベンチマークであるJigsaw-Puzzlesを紹介します。 Jigsaw-Puzzlesは、空間的複雑性の高い1,100個の実際の画像で構成され、空間知覚、構造理解、推論能力を評価する5つの課題が含まれています。 24の最先端VLMを対象に評価した結果、最高性能モデルであるGemini-2.5-Proでさえ全体精度77.14%にとどまり、特にシーケンス生成課題では30%の精度のみを示し、人間参加者の90%以上の性能と大きな差を見せました。これは、VLMの空間推論能力を向上させるための継続的な研究の必要性を強調します。

Takeaways、Limitations

Takeaways:
VLMの空間推論能力の客観的評価のための新しいベンチマーク(Jigsaw-Puzzles)の提示
最先端VLMの空間推論能力の限界を明確に提示
VLMの空間推論研究方向の提示(特に順序生成課題の性能向上の必要性)
Limitations:
Jigsaw-Puzzlesデータセットのサイズが比較的小さい場合があります。
評価課題の種類が制限される可能性があります。
実際の世界のさまざまな空間的状況を完全に反映できない可能性があります。
👍