본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 평가를 위한 새로운 프레임워크인 SMART(Self-Generating and Self-Validating Multi-Dimensional Assessment Framework)를 제안한다. SMART는 수학 문제 해결 과정을 이해, 추론, 산술, 반성 및 수정 등 네 가지 차원으로 분해하여 각 차원을 독립적으로 평가함으로써 LLM의 행동을 해석 가능하고 세밀하게 분석한다. 자동화된 자체 생성 및 검증 메커니즘을 통합하여 확장성과 신뢰성을 보장하며, 21개의 최첨단 LLM을 평가하여 각 차원별 능력의 상당한 차이를 발견하였다. 이는 최종 답변 정확도만으로는 LLM의 진정한 문제 해결 능력을 평가하기에 부족함을 보여주며, 보다 포괄적인 평가 지표의 필요성을 강조한다.