Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Created by
  • Haebom

저자

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

개요

본 논문은 가려진 물체에 대한 추론 능력을 평가하기 위해 새로운 과제인 CAPTURe(Counting Amodally for Patterns Through Unseen REgions)를 제시합니다. CAPTURe는 가리개 뒤에 숨겨진 패턴을 추론하여 물체를 세는 것을 요구하며, 시각적 패턴 인식과 추론 능력 모두를 평가합니다. 실제 물체 이미지를 사용한 CAPTURe-real과 생성된 이미지를 사용한 CAPTURe-synthetic 두 가지 버전으로 구성됩니다. GPT-4o, Intern-VL2, Molmo, Qwen2-VL 등 네 가지 강력한 VLM을 평가한 결과, 가려진 패턴과 가려지지 않은 패턴 모두에서 성능이 저조했으며, 특히 가려진 경우 성능이 더욱 저하되는 것을 확인했습니다. 이는 VLM이 보이지 않는 공간적 관계를 추론하는 데 어려움을 겪는다는 것을 시사합니다. 반면, 인간은 CAPTURe에서 매우 적은 오류율을 보였습니다. 가려진 물체 위치에 대한 추가 정보를 제공하면 성능이 향상되는 것으로 나타났는데, 이는 모델의 오류가 가려짐을 처리하지 못하는 능력과 이미지 내에서 세는 데 어려움 모두에서 기인함을 보여줍니다.

시사점, 한계점

시사점:
가려진 물체에 대한 추론 능력을 평가하는 새로운 벤치마크인 CAPTURe를 제시.
현재의 강력한 VLM들이 가려진 물체에 대한 추론 및 공간적 이해 능력이 부족함을 보여줌.
VLM의 성능 향상을 위한 추가 연구 방향 제시 (가려진 정보 추론, 시각적 패턴 인식 및 추론 능력 향상).
인간과 VLM의 성능 차이를 통해 향후 VLM 개발 방향을 제시.
한계점:
CAPTURe 데이터셋의 규모가 제한적일 수 있음.
평가에 사용된 VLM 모델의 종류가 제한적일 수 있음.
실제 세계의 복잡한 시각적 장면을 완전히 반영하지 못할 수 있음.
추가 정보 제공 시 성능 향상으로, 모델의 오류 원인이 다층적임을 보여주지만, 각 원인에 대한 정량적 분석이 부족.
👍