본 논문은 다중 모달 대규모 언어 모델(MLLM)의 수학적 문제 해결 능력, 특히 시각-수학적 추론 능력의 한계를 탐구한다. 연구진은 MLLM의 기하학적 기본 개념 이해, 다단계 추론 능력을 평가하고 시각적 추론 능력 향상을 위한 잠재적 해결책을 제시한다. 실험 결과, 최첨단 모델조차도 규칙적인 다각형 식별에서 50% 미만의 정확도를 보이는 등 기본적인 도형 인식에 심각한 결함을 드러냈다. 이러한 실패는 이중 과정 이론(dual-process theory)의 관점에서 분석되었으며, MLLM이 System 2(의도적인 추론) 대신 System 1(직관적이고 기억된 연상)에 의존하는 것으로 나타났다. 결론적으로 MLLM은 익숙한 도형과 새로운 도형 모두에서 변의 개수를 세는 데 실패하며, 변의 개념을 학습하지 못했거나 시각적 입력을 효과적으로 처리하지 못함을 시사한다. 마지막으로, 도형의 시각적 주석을 명시적으로 참조하여 다단계 수학적 추론을 향상시키는 Visually Cued Chain-of-Thought (VC-CoT) 프롬프팅 기법을 제안하며, 이를 통해 GPT-4o의 불규칙 다각형 변 세기 작업 정확도를 7%에서 93%로 향상시켰다.