본 논문은 Vision Language Model (VLM)이 인간처럼 제한된 시각 정보만으로 전체 장면을 상상할 수 있는지에 대한 질문에서 출발합니다. 기존 VLM들이 공간적 추론 능력에 한계를 보이는 것을 MindCube 벤치마크(21,154개 질문, 3,268개 이미지)를 통해 밝히고 있습니다. MindCube는 위치(인지적 매핑), 방향(관점 취하기), 동역학("만약" 움직임에 대한 정신적 시뮬레이션)을 평가하여 VLM의 공간적 정신 모델 구축 능력을 체계적으로 평가합니다. 논문에서는 미지의 중간 뷰, 자연어 추론 체인, 인지 지도를 활용하여 VLM의 공간적 정신 모델을 개선하는 세 가지 접근 방식을 탐구합니다. 특히, 인지 지도를 생성하고 이를 기반으로 추론하는 "map-then-reason" 접근 방식과 강화 학습을 결합하여 정확도를 37.8%에서 70.7%까지 향상시켰으며, 내부 구조화된 공간 표현과 유연한 추론 과정을 활용하는 것이 공간 이해 향상에 중요함을 강조합니다.
시사점, 한계점
•
시사점:
◦
VLM의 공간적 추론 능력의 한계를 명확히 보여주는 새로운 벤치마크 MindCube 제시.
◦
"map-then-reason" 접근 방식과 강화 학습을 통한 VLM의 공간적 정신 모델링 성능 향상.