본 논문은 추상적 시각 추론(AVR)에서 다중 모달 대규모 언어 모델(MLLM)의 성능을 평가하기 위해 다단계 AVR 벤치마크인 MultiStAR를 제안합니다. 기존 AVR 벤치마크가 단일 단계 추론에 초점을 맞추고 최종 결과만을 평가하는 한계를 극복하기 위해, MultiStAR는 다양한 복잡성 수준에서 추론 과정을 평가하도록 설계되었습니다. 또한, 기존의 정확도 중심 평가 방식을 개선하기 위해 중간 단계의 정확성까지 고려하는 새로운 평가 지표 MSEval을 제안하고, 17개의 대표적인 MLLM을 사용하여 MultiStAR에 대한 실험을 수행합니다. 실험 결과, 기존 MLLM은 기본적인 지각 과제에서는 적절한 성능을 보이지만, 복잡한 규칙 탐지 단계에서는 어려움을 겪는다는 것을 보여줍니다.