인간은 네비게이션을 통해 뷰포인트에 독립적인 인지 지도를 구축하여 객체 영속성 및 공간 관계에 대한 직관적인 추론을 가능하게 합니다. 본 논문에서는 다중 모달 대규모 언어 모델(MLLM)이 방대한 비디오 훈련에도 불구하고 이러한 기본적인 공간 추론 능력이 부족하다는 점을 지적하며, 이는 임베디드 애플리케이션에 치명적인 한계로 작용한다고 주장합니다. 이러한 한계를 입증하고 연구를 촉진하기 위해, 제어 가능한 3D 환경을 사용하여 장기적인 임베디드 공간 추론을 위한 벤치마크인 REM (Reasoning over Embodied Multi-Frame Trajectories)을 제시합니다. REM은 객체 영속성/구분, 공간 관계, 동적 임베디드 뷰포인트에 따른 수치적 추적과 같은 주요 측면을 체계적으로 평가합니다. 평가 결과, 현재 최고 성능 모델들은 전반적으로 유망한 성능을 보였지만, 인간이 쉽게 처리할 수 있는 중간 수준의 복잡성에서도 신뢰성이 떨어지는 것으로 나타났습니다. 이러한 결과는 MLLM이 순차적 시각 입력을 통해 강력한 공간 표현을 개발하는 데 직면한 어려움을 강조합니다. 따라서 REM은 향후 모델의 공간 이해도 향상을 위한 목표 지표와 진단을 제공합니다.