본 논문은 시각 언어 모델(VLMs)의 비국소적 시각 추론 능력을 평가하는 새로운 평가 방법을 제시합니다. 비국소적 시각 추론이란 이미지의 여러 영역에서 수집된 증거를 연결하는 추론을 의미하며, 본 논문에서는 비교 지각, 도약 탐색, 부드러운 시각 탐색의 세 가지 유형으로 분류합니다. Gemini 2.5 Pro, Claude Vision 3.7, GPT-o4-mini 등 최첨단 VLMs을 대상으로 실험한 결과, 이들 모델은 인간에게는 간단한 과제에서도 랜덤 수준의 정확도를 겨우 넘는 수준에 머물렀습니다. 이는 VLMs가 원시적 시각 벤치마크에서 좋은 성능을 보이더라도 핵심적인 시각 추론 능력이 부족함을 시사합니다. 본 연구는 인간과 유사한 시각 알고리즘을 VLMs가 수행할 수 있는지 여부를 검증하는 구조화된 평가 세트를 제공합니다.