시각적 공간 추론(VSR)은 인간의 핵심 인지 능력이며, 구현된 지능과 자율 시스템 발전에 필수적입니다. 시각-언어 모델(VLM)의 최근 발전에도 불구하고, 3차원 공간을 표현하고 추론하는 복잡성 때문에 인간 수준의 VSR 달성은 여전히 어렵습니다. 본 논문에서는 입력 모드, 모델 아키텍처, 훈련 전략, 추론 메커니즘 전반에 걸쳐 기존 방법론을 검토하여 VLM에서 VSR을 체계적으로 조사합니다. 또한 공간 지능을 기본 인식, 공간 이해, 공간 계획의 세 가지 수준의 능력으로 분류하고, 23개의 작업 설정을 포함하는 약 20개의 오픈 소스 데이터 세트를 포괄하는 공간 지능 벤치마크인 SIBench를 큐레이션합니다. 최첨단 VLM으로 수행한 실험 결과, 모델이 기본적인 지각 작업에서는 능력을 보이지만, 특히 수치 추정, 다중 뷰 추론, 시간적 역학 및 공간적 상상력에서 이해 및 계획 작업에서는 일관되게 성능이 저조하여 인식과 추론 사이에 뚜렷한 격차가 드러났습니다. 이러한 결과는 공간 지능 달성에 남아있는 상당한 과제를 강조하는 동시에 이 분야의 미래 연구를 추진할 체계적인 로드맵과 포괄적인 벤치마크를 제공합니다.
시사점, 한계점
•
VLM에서 VSR을 체계적으로 조사하여 기존 방법론 검토.
•
공간 지능을 세 가지 수준의 능력으로 분류: 기본 인식, 공간 이해, 공간 계획.
•
공간 지능 벤치마크인 SIBench 구축.
•
VLM이 기본적인 지각 작업에서는 능숙하지만, 공간 이해 및 계획 작업에서는 성능이 저조함을 발견.