본 논문은 수학 교육에서 AI 기반 교육 및 평가에 점점 더 많이 활용되는 대규모 언어 모델(LLM)의 정확성을 평가한 연구 결과를 제시합니다. 연구에서는 OpenAI GPT-4o, OpenAI o1, DeepSeek-V3, DeepSeek-R1 네 가지 LLM을 대상으로 산술, 대수, 정수론 세 가지 수학 문제 유형을 풀게 하고, 해답의 정확성과 각 단계의 추론 오류를 분석했습니다. LLM이 오류를 범하기 쉬운 어려운 문제들을 의도적으로 만들어 평가했으며, 단일 에이전트와 이중 에이전트 구성 모두에서 실험을 진행했습니다. 그 결과, 추론 기능이 향상된 OpenAI o1 모델이 모든 수학 문제 유형에서 가장 높거나 거의 완벽한 정확도를 달성했으며, 오류 분석 결과 절차적 실수가 가장 빈번하게 발생하여 전반적인 성능에 큰 영향을 미치는 반면, 개념적 오류는 상대적으로 적었습니다. 이중 에이전트 구성을 사용하면 전반적인 성능이 크게 향상되었습니다. 이러한 결과는 LLM 성능 향상을 위한 실행 가능한 통찰력을 제공하며, 수학 교육에 LLM을 통합하는 효과적인 전략을 강조하여 AI 기반 교육 및 평가의 정확성을 높이는 데 기여합니다.