[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs

Created by
  • Haebom

저자

Shmuel Berman, Jia Deng

개요

본 논문은 시각 언어 모델(VLMs)의 비국소적 시각 추론 능력을 평가하는 새로운 평가 방법을 제시합니다. 비국소적 시각 추론이란 이미지의 여러 영역에서 수집된 증거를 연결하는 추론을 의미하며, 본 논문에서는 비교 지각, 도약 탐색, 부드러운 시각 탐색의 세 가지 유형으로 분류합니다. Gemini 2.5 Pro, Claude Vision 3.7, GPT-o4-mini 등 최첨단 VLMs을 대상으로 실험한 결과, 이들 모델은 인간에게는 간단한 과제에서도 랜덤 수준의 정확도를 겨우 넘는 수준에 머물렀습니다. 이는 VLMs가 원시적 시각 벤치마크에서 좋은 성능을 보이더라도 핵심적인 시각 추론 능력이 부족함을 시사합니다. 본 연구는 인간과 유사한 시각 알고리즘을 VLMs가 수행할 수 있는지 여부를 검증하는 구조화된 평가 세트를 제공합니다.

시사점, 한계점

시사점: 현존하는 최첨단 VLMs가 비국소적 시각 추론 능력에서 심각한 한계를 드러냄을 보여줍니다. 단순한 시각적 과제에서조차 인간 수준의 성능에 크게 미치지 못하며, 향후 VLMs 개발 방향에 대한 중요한 시사점을 제공합니다. 본 연구에서 제시된 평가 방법은 VLMs의 시각 추론 능력을 객관적으로 평가하는 데 유용한 도구가 될 수 있습니다.
한계점: 본 연구는 특정 유형의 비국소적 시각 추론 과제에만 초점을 맞추고 있으므로, VLMs의 시각 추론 능력 전반을 포괄적으로 평가했다고 보기는 어렵습니다. 다양한 유형의 시각 추론 과제를 추가하여 평가 범위를 확장할 필요가 있습니다. 또한, 평가에 사용된 이미지 데이터셋의 특성이 결과에 영향을 미칠 수 있습니다.
👍