本論文は,視覚言語モデル(VLM)の非局所的視覚推論能力を評価する新しい評価方法を提示した。非局所的な視覚的推論とは、画像のさまざまな領域で収集された証拠を結びつける推論を意味します。 Gemini 2.5 Pro、Claude Vision 3.7、GPT-o4-miniなど、最先端のVLMを対象に実験した結果、これらのモデルは人間にとっては単純な課題でもランダムレベルの精度をわずかに超えたレベルにとどまった。これは、VLMが原始的な視覚ベンチマークで良好な性能を示したとしても、重要な視覚的推論能力が不足していることを示唆している。この研究は、人間に似た視覚アルゴリズムをVLMが実行できるかどうかを検証する一連の構造化評価を提供します。