본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위한 새로운 벤치마크인 수학 주제 트리(MaTT)를 제시합니다. MaTT는 다양한 수학 분야에 걸쳐 1,958개의 질문과 각 질문에 대한 상세한 계층적 주제 체인을 제공합니다. GPT-4를 포함한 여러 LLM을 MaTT로 평가한 결과, GPT-4는 객관식 문제에서 54%의 정확도를 보였으며, Chain-of-Thought 프롬프팅을 사용해도 유의미한 향상이 나타나지 않았습니다. 객관식 선택지 없이 문제를 제시했을 때는 정확도가 최대 24.2%p까지 감소했습니다. 또한, 유사한 하위 주제에서도 LLM의 성능 차이가 크게 나타났으며, GPT-4의 정답에 대한 설명의 완전성과 정확성 분석 결과, 정답을 맞춘 경우에도 53.3%만이 완전하고 정확한 설명을 제공하여 진정한 추론을 수행한 것으로 나타났습니다.