본 논문은 대규모 언어 모델(LLM)을 활용한 수학 학습자의 인지 능력 진단에 대한 연구를 다룬다. 기존의 자동화된 수학 평가는 주로 숫자, 공식, 서술과 같은 텍스트적 증거를 통해 학습자의 내용 지식을 평가하는 데 초점을 맞춰왔으나, 본 연구는 LLM의 문제 해결, 이미지 인식, 추론 능력을 활용하여 학습자의 인지 기술을 보다 정교하게 평가하고자 한다. 연구진은 중학교 수준 수학 문제에 대한 학생 답변 639개를 포함하는 새로운 벤치마크 데이터셋 MathCog를 구축하고, 다양한 크기와 종류의 LLM 16개를 평가했다. 평가 결과, 최첨단 LLM조차도 학생의 인지 기술을 정확하게 진단하는 데 어려움을 겪고 있으며(F1 점수 모두 0.5 미만), 오답에 대한 과도한 자신감을 보이는 경향이 있음을 밝혔다. 모델의 크기가 진단 성능과 양의 상관관계를 가지는 것도 확인되었다.