본 논문은 대규모 언어 모델(LLM)의 수학 문제 풀이 능력을 수학 과외 지도 맥락에서 평가하는 두 가지 새로운 접근 방식을 제시합니다. 첫 번째 접근 방식은 대학 대수를 위한 지능형 과외 시스템을 활용하여 LLM의 문제 해결 능력을 평가합니다. 두 번째 접근 방식은 LLM을 문제 해결자가 아닌 과외 교사로 평가하기 위해 인간 평가자(학생 역할)가 LLM로부터 과외 지원을 받고, 질적 코딩을 통해 지원의 질과 정확성을 평가합니다. ChatGPT 3.5 Turbo, 4, 4o, o1-mini, o1-preview 모델들을 대상으로 실험한 결과, 문제 해결자로서 LLM은 대학 대수 문제의 85.5%에서 정답을 생성했지만, 과외 교사로서 상호작용할 때는 고품질의 교육적 지원을 제공하는 대화가 90%였으나, 완전히 정확한 것은 56.6%에 불과했습니다. 결론적으로 LLM은 인간의 감독이나 정확성 및 품질을 보장하는 추가적인 메커니즘 없이는 수학 지능형 과외 교사로서 적합하지 않다는 것을 보여줍니다.