비전-언어 모델(VLM)은 VQA 및 차트 이해와 같은 복잡한 시각적 작업에 뛰어나지만, 최근 연구에 따르면 단순한 지각 테스트에 어려움을 겪는 것으로 나타났다. 본 논문은 VLM의 비국소적 시각적 추론 능력, 즉 이미지의 여러, 어쩌면 멀리 떨어진 영역에서 수집된 증거를 연결해야 하는 추론 능력을 평가한다. 비교 지각, 즉 두 이미지를 작업 기억에 저장하고 비교하는 것; 연속적인 목표물을 찾기 위해 증거에 따라 이산적인 점프를 하는 주사 탐색; 그리고 연속적인 윤곽선을 따라가는 부드러운 시각 탐색의 세 가지 형태의 비국소적 시각적 능력을 분리하여 평가하였다. GPT-5, Gemini 2.5 Pro, Claude Sonnet 4와 같은 주력 모델은 이전의 기본적인 시각 벤치마크에서 좋은 성적을 거두었음에도 불구하고 이러한 테스트에 실패했으며, 인간에게는 사소한 작업인 두 가지 변형 작업에서 무작위 정확도보다 약간 높은 수준을 보였다. 구조화된 평가 도구를 사용하여 VLM이 인간이 사용하는 시각적 알고리즘과 유사한 작업을 수행할 수 있는지 테스트했다. 연구 결과, 현재 모델은 순수한 시각적 정확도 향상에도 불구하고 핵심적인 시각적 추론 능력이 부족하다는 것을 보여준다.