멀티모달 대형 언어 모델(MLLM)이 시각-언어 응답 작업에서 뛰어난 성능을 보였지만, 수학 문제 해결과 같은 복잡한 추론 작업에는 어려움을 겪습니다. 본 논문에서는 수학적 자기 진화 프레임워크인 \method를 제안합니다. \method는 기존의 일회성 미세 조정 방식과 달리, 추론, 반성 및 보상 기반 피드백의 순환을 통해 모델을 반복적으로 개선합니다. 올바른 추론 경로를 통합하고, Outcome Reward Model (ORM)의 반성을 활용하여 성능을 향상시켰습니다. MathVL-test 벤치마크에서 기존 모델들을 능가하는 성능을 보였습니다.