본 논문은 멀티모달 추론 연구의 중요성을 강조하며, 데이터 중심 접근 방식이 기존 알고리즘 중심 연구에 비해 갖는 잠재력을 탐구한다. 텍스트북 문제-해결 쌍, 커리큘럼 기반 다이어그램, 관련 자료를 결합한 1억 6140만 토큰의 멀티모달 데이터셋을 구축하고, 최적화된 추론 구문(QMSA)을 사용하여 Qwen-2.5VL-32B를 SFT 방식으로 파인튜닝했다. 그 결과, 새로운 벤치마크 YKSUniform에서 78.6%의 정확도를 달성하여 Gemini 2.0 Flash에 근접하는 성능을 보였다. 본 연구는 데이터 구성과 표현 구문이 멀티모달 추론에 중요한 영향을 미친다는 것을 보여주며, 오픈 웨이트 비전 언어 모델 발전을 위한 데이터 중심 프레임워크를 제시한다.