본 논문은 로봇 공학, 컴퓨터 비전, 자연어 이해 등 인공지능 분야에서 중요한 공간 추론 능력을 평가하기 위해, MLLMs (Multimodal Large Language Models)의 복잡한 공간 추론 능력 및 수학적 제약 조건 처리 능력을 평가하는 새로운 데이터셋 및 벤치마크인 ORIGAMISPACE를 소개합니다. ORIGAMISPACE는 종이접기 문제를 통해 MLLMs의 멀티 스텝 공간 추론 능력을 평가하며, 350개의 데이터 인스턴스로 구성됩니다. 4가지 평가 과제(패턴 예측, 멀티 스텝 공간 추론, 공간 관계 예측, End-to-End CP 코드 생성)를 제안하고, CP 코드 생성 과제에서는 강화 학습을 활용한 MLLMs 학습 가능성을 탐구합니다. 실험을 통해 기존 MLLMs의 복잡한 공간 추론 능력에 대한 강점과 약점을 파악합니다.