본 논문은 추상적인 시각적 추론(AVR) 능력을 평가하기 위한 새로운 벤치마크인 MultiStAR을 제시합니다. 기존의 AVR 벤치마크가 단일 단계 추론에 초점을 맞추고 결과만을 평가하는 한계를 극복하고자, 다단계 추론 과정을 평가하는 MultiStAR을 RAVEN을 기반으로 개발했습니다. 또한, 기존의 정확도 중심 평가 지표의 한계를 극복하기 위해 중간 단계의 정확성까지 고려하는 새로운 평가 지표 MSEval을 제안합니다. 17개의 대표적인 MLLM을 대상으로 MultiStAR에서 실험을 수행하여, 기존 MLLM이 기본적인 지각 과제에서는 양호한 성능을 보이지만 복잡한 규칙 탐지 단계에서는 여전히 어려움을 겪는다는 것을 밝혔습니다.