본 논문은 현재의 비전-언어 모델(VLMs)이 다중 시점 환경에서의 공간 추론에서 기하학적 일관성과 교차 시점 일관성을 유지하는 데 어려움을 겪는다는 점을 지적한다. 이를 해결하기 위해, 저자들은 VLMs가 보완적인 시점 간의 공간적 정신 모델을 구축, 정렬, 유지하는 방식을 평가하기 위한 인지적으로 근거한 벤치마크인 ReMindView-Bench를 제시한다. ReMindView-Bench는 시점 공간 패턴과 쿼리 유형을 체계적으로 변화시켜 공간 인지의 핵심 요소를 탐구한다. 15개의 최신 VLM에 대한 평가 결과, 교차 시점 정렬 및 다중 시점 공간 추론에서의 관점 채택에 일관된 실패가 나타났으며, 이는 추론 과정에 대한 더 깊은 분석을 유도했다. LLM-as-a-judge와 자기 일관성 프롬프팅을 사용한 명시적 단계별 분석 결과, VLMs는 프레임 내 인식에는 능숙하지만, 시점 간 정보 통합 시 성능이 급격히 저하되는 것으로 나타났다. 선형 프로빙 및 엔트로피 역학을 포함한 암시적 분석 결과, 작업 관련 정보의 점진적 손실과 정답 및 오답 궤적 간의 불확실성 분리 부족이 확인되었다.