SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

작성자

Haebom

카테고리

Empty

저자

Peiran Xu, Sudong Wang, Yao Zhu, Jianing Li, Gege Qi, Yunjian Zhang

💡 개요

본 연구는 실제 세계의 다중 모달 지능에 필수적인 공간 인지 능력을 평가하기 위한 새로운 벤치마크인 SpatialBench를 제안합니다. 기존 벤치마크가 공간 인지 능력을 단순화하는 문제점을 해결하기 위해, 본 논문은 5단계의 계층적 공간 인지 프레임워크를 구축하고 이를 기반으로 15개 태스크를 포함하는 대규모 벤치마크를 개발했습니다. 실험 결과, MLLM들은 기본적인 지각 능력은 뛰어나지만 상징적 추론, 인과 관계 추론, 계획 능력 등 고차원적인 공간 인지에서는 한계를 보였으며, 이는 인간의 목표 지향적인 추상화와 대비됩니다.

🔑 시사점 및 한계

•

MLLM의 공간 인지 능력을 다차원적이고 계층적으로 평가할 수 있는 새로운 프레임워크와 벤치마크를 제시했습니다.

•

MLLM이 지각 기반 능력은 뛰어나지만, 고차원적인 상징적 추론 및 계획 능력에서 부족하다는 점을 명확히 밝혔습니다.

•

향후 공간 지능 시스템 개발을 위한 중요한 기반을 마련했습니다.

•

MLLM이 표면적인 세부 사항에 과도하게 집중하는 경향이 있으며, 인간과 같은 일관된 공간적 의도를 가지고 추상화하지 못하는 한계가 있습니다.

PDF 보기

Made with Slashpage