Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs

Created by
  • Haebom
Category
Empty

저자

Shmuel Berman, Jia Deng

개요

비전-언어 모델(VLM)은 VQA 및 차트 이해와 같은 복잡한 시각적 작업에 뛰어나지만, 최근 연구에 따르면 단순한 지각 테스트에 어려움을 겪는 것으로 나타났다. 본 논문은 VLM의 비국소적 시각적 추론 능력, 즉 이미지의 여러, 어쩌면 멀리 떨어진 영역에서 수집된 증거를 연결해야 하는 추론 능력을 평가한다. 비교 지각, 즉 두 이미지를 작업 기억에 저장하고 비교하는 것; 연속적인 목표물을 찾기 위해 증거에 따라 이산적인 점프를 하는 주사 탐색; 그리고 연속적인 윤곽선을 따라가는 부드러운 시각 탐색의 세 가지 형태의 비국소적 시각적 능력을 분리하여 평가하였다. GPT-5, Gemini 2.5 Pro, Claude Sonnet 4와 같은 주력 모델은 이전의 기본적인 시각 벤치마크에서 좋은 성적을 거두었음에도 불구하고 이러한 테스트에 실패했으며, 인간에게는 사소한 작업인 두 가지 변형 작업에서 무작위 정확도보다 약간 높은 수준을 보였다. 구조화된 평가 도구를 사용하여 VLM이 인간이 사용하는 시각적 알고리즘과 유사한 작업을 수행할 수 있는지 테스트했다. 연구 결과, 현재 모델은 순수한 시각적 정확도 향상에도 불구하고 핵심적인 시각적 추론 능력이 부족하다는 것을 보여준다.

시사점, 한계점

VLM은 복잡한 시각적 작업에는 뛰어나지만, 비국소적 시각 추론과 같은 간단한 지각 테스트에서 어려움을 겪는다.
비교 지각, 주사 탐색, 부드러운 시각 탐색과 같은 세 가지 유형의 비국소적 시각적 추론 능력을 평가하는 새로운 평가 프레임워크를 제시한다.
GPT-5, Gemini 2.5 Pro, Claude Sonnet 4와 같은 주력 모델이 제시된 테스트에서 실패하는 것을 확인했다.
현재 모델은 시각적 정확도 향상에도 불구하고 핵심적인 시각적 추론 능력이 부족하다는 결론을 내렸다.
연구는 VLM의 시각적 추론 능력 향상을 위한 추가 연구의 필요성을 강조한다.
👍