Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Investigating Large Language Models in Diagnosing Students' Cognitive Skills in Math Problem-solving

Created by
  • Haebom

저자

Hyoungwook Jin, Yoonsu Kim, Dongyun Jung, Seungju Kim, Kiyoon Choi, Jinho Son, Juho Kim

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 수학 학습자의 인지 능력 진단에 대한 연구를 다룬다. 기존의 자동화된 수학 평가는 주로 숫자, 공식, 서술과 같은 텍스트적 증거를 통해 학습자의 내용 지식을 평가하는 데 초점을 맞춰왔으나, 본 연구는 LLM의 문제 해결, 이미지 인식, 추론 능력을 활용하여 학습자의 인지 기술을 보다 정교하게 평가하고자 한다. 연구진은 중학교 수준 수학 문제에 대한 학생 답변 639개를 포함하는 새로운 벤치마크 데이터셋 MathCog를 구축하고, 다양한 크기와 종류의 LLM 16개를 평가했다. 평가 결과, 최첨단 LLM조차도 학생의 인지 기술을 정확하게 진단하는 데 어려움을 겪고 있으며(F1 점수 모두 0.5 미만), 오답에 대한 과도한 자신감을 보이는 경향이 있음을 밝혔다. 모델의 크기가 진단 성능과 양의 상관관계를 가지는 것도 확인되었다.

시사점, 한계점

시사점:
LLM을 활용한 수학 인지 기술 진단의 가능성과 한계를 보여주는 실증적 연구 결과 제시.
모델 크기가 성능에 영향을 미침을 확인, 향후 모델 개발 방향 제시.
학생들의 인지 과정에 대한 심층적인 이해를 위한 새로운 데이터셋 MathCog 제공.
LLM 기반 자동화된 평가 시스템 개발의 어려움과 과제 제시.
한계점:
모든 LLM의 F1 점수가 0.5 미만으로, 현재 기술 수준으로는 정확한 인지 기술 진단이 어려움.
LLM이 오답에 대해 과도한 자신감을 보이는 경향(과신 문제) 존재.
MathCog 데이터셋은 중학교 수준 수학 문제에 한정됨.
다양한 유형의 수학 문제 및 학습자 수준에 대한 추가 연구 필요.
👍