[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs

Created by
  • Haebom

作者

Shmuel Berman, Jia Deng

概要

本論文は,視覚言語モデル(VLM)の非局所的視覚推論能力を評価する新しい評価方法を提示した。非局所的な視覚的推論とは、画像のさまざまな領域で収集された証拠を結びつける推論を意味します。 Gemini 2.5 Pro、Claude Vision 3.7、GPT-o4-miniなど、最先端のVLMを対象に実験した結果、これらのモデルは人間にとっては単純な課題でもランダムレベルの精度をわずかに超えたレベルにとどまった。これは、VLMが原始的な視覚ベンチマークで良好な性能を示したとしても、重要な視覚的推論能力が不足していることを示唆している。この研究は、人間に似た視覚アルゴリズムをVLMが実行できるかどうかを検証する一連の構造化評価を提供します。

Takeaways、Limitations

Takeaways:現存する最先端のVLMが非局所的な視覚的推論能力で深刻な限界を明らかにすることを示しています。単純な視覚的課題でさえ、人間レベルの性能にはあまり及ばない。本研究で提示された評価方法は、VLMの視覚的推論能力を客観的に評価するのに有用なツールとなり得る。
Limitations:この研究は特定の種類の非局所的な視覚的推論の課題にのみ焦点を当てているため、VLMの視覚的推論能力全体を包括的に評価したとは考えにくいです。さまざまな種類の視覚的推論課題を追加して評価範囲を拡大する必要があります。さらに、評価に使用される画像データセットの特性が結果に影響を与える可能性があります。
👍