Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Final Answers: Evaluating Large Language Models for Math Tutoring

Created by
  • Haebom
Category
Empty

저자

Adit Gupta, Jennifer Reddig, Tommaso Calo, Daniel Weitekamp, Christopher J. MacLellan

개요

본 논문은 대규모 언어 모델(LLM)의 수학 문제 풀이 능력을 수학 과외 지도 맥락에서 평가하는 두 가지 새로운 접근 방식을 제시합니다. 첫 번째 접근 방식은 대학 대수를 위한 지능형 과외 시스템을 활용하여 LLM의 문제 해결 능력을 평가합니다. 두 번째 접근 방식은 LLM을 문제 해결자가 아닌 과외 교사로 평가하기 위해 인간 평가자(학생 역할)가 LLM로부터 과외 지원을 받고, 질적 코딩을 통해 지원의 질과 정확성을 평가합니다. ChatGPT 3.5 Turbo, 4, 4o, o1-mini, o1-preview 모델들을 대상으로 실험한 결과, 문제 해결자로서 LLM은 대학 대수 문제의 85.5%에서 정답을 생성했지만, 과외 교사로서 상호작용할 때는 고품질의 교육적 지원을 제공하는 대화가 90%였으나, 완전히 정확한 것은 56.6%에 불과했습니다. 결론적으로 LLM은 인간의 감독이나 정확성 및 품질을 보장하는 추가적인 메커니즘 없이는 수학 지능형 과외 교사로서 적합하지 않다는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM의 수학 문제 해결 능력과 수학 과외 지도 능력 간의 차이를 밝힘.
LLM을 수학 과외 지도에 활용할 때 정확성과 품질 보장의 중요성을 강조.
LLM 기반 수학 과외 시스템 개발을 위한 새로운 평가 방법론 제시.
한계점:
평가에 사용된 LLM 모델의 종류와 버전이 제한적임.
인간 평가자의 주관성이 평가 결과에 영향을 미칠 수 있음.
대학 대수 문제에 국한된 평가 결과로 일반화에 한계가 있음.
LLM의 오류 수정 및 정확도 향상을 위한 구체적인 방안 제시 부족.
👍