본 논문은 다단계 공간 추론 능력을 평가하기 위해 레고 기반 시각적 질의응답(VQA) 벤치마크인 LEGO-Puzzles를 제안합니다. LEGO-Puzzles는 11가지 다양한 작업으로 구성된 1,100개의 샘플을 포함하며, 기본적인 공간 이해부터 복잡한 다단계 추론까지 다양한 수준의 문제를 다룹니다. 논문에서는 20개의 최첨단 다중 모달 대규모 언어 모델(MLLM)을 LEGO-Puzzles를 이용해 평가하여, MLLM의 공간 추론 능력에 상당한 한계가 있음을 밝힙니다. 인간 참가자의 정확도가 90%를 넘는 반면, 최고 성능의 MLLM도 절반 정도의 정확도만 보였습니다. 또한, MLLM의 공간 이해 및 추론 능력을 이미지 생성 과제에 적용하여 평가하였으며, GPT-4o와 Gemini-2.0-Flash만 제한적인 성능을 보였습니다. 결론적으로 LEGO-Puzzles는 기존 MLLM의 공간 이해 및 순차적 추론 능력의 부족을 보여주며, 다중 모달 공간 추론 분야의 추가적인 발전이 필요함을 강조합니다.