Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

Created by
  • Haebom
Category
Empty

저자

Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu

개요

시각적 공간 추론(VSR)은 인간의 핵심 인지 능력이며, 구현된 지능과 자율 시스템 발전에 필수적입니다. 시각-언어 모델(VLM)의 최근 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성 때문에 인간 수준의 VSR 달성은 여전히 어렵습니다. 본 논문에서는 입력 모드, 모델 아키텍처, 훈련 전략, 추론 메커니즘 전반에 걸쳐 기존 방법론을 검토하여 VLM에서 VSR을 체계적으로 조사합니다. 또한 공간 지능을 기본 인식, 공간 이해, 공간 계획의 세 가지 수준의 능력으로 분류하고, 23개의 작업 설정을 포함하는 약 20개의 오픈 소스 데이터 세트를 포괄하는 공간 지능 벤치마크인 SIBench를 큐레이션합니다. 최첨단 VLM으로 수행한 실험 결과, 모델이 기본적인 지각 작업에서는 능력을 보이지만, 특히 수치 추정, 다중 뷰 추론, 시간적 역학 및 공간적 상상력에서 이해 및 계획 작업에서는 일관되게 성능이 저조하여 인식과 추론 사이에 뚜렷한 격차가 드러났습니다. 이러한 결과는 공간 지능 달성에 남아있는 상당한 과제를 강조하는 동시에 이 분야의 미래 연구를 추진할 체계적인 로드맵과 포괄적인 벤치마크를 제공합니다.

시사점, 한계점

VLM에서 VSR을 체계적으로 조사하여 기존 방법론 검토.
공간 지능을 세 가지 수준의 능력으로 분류: 기본 인식, 공간 이해, 공간 계획.
공간 지능 벤치마크인 SIBench 구축.
VLM이 기본적인 지각 작업에서는 능숙하지만, 공간 이해 및 계획 작업에서는 성능이 저조함을 발견.
수치 추정, 다중 뷰 추론, 시간적 역학, 공간적 상상력에 대한 어려움 강조.
공간 지능 달성에 남아있는 과제와 미래 연구를 위한 로드맵 및 벤치마크 제공.
👍