Bài báo này trình bày kết quả của một nghiên cứu đánh giá độ chính xác của các mô hình ngôn ngữ quy mô lớn (LLM), vốn ngày càng được sử dụng rộng rãi trong đào tạo và đánh giá dựa trên AI trong giáo dục toán học. Nghiên cứu đã đánh giá độ chính xác của các giải pháp và lỗi suy luận ở mỗi giai đoạn cho bốn LLM: OpenAI GPT-4o, OpenAI o1, DeepSeek-V3 và DeepSeek-R1, giải quyết ba loại bài toán: số học, đại số và lý thuyết số. Chúng tôi cố tình tạo ra các bài toán khó mà LLM dễ mắc lỗi, và các thí nghiệm được tiến hành ở cả cấu hình tác tử đơn và tác tử kép. Kết quả cho thấy mô hình OpenAI o1, với khả năng suy luận nâng cao, đạt độ chính xác cao nhất hoặc gần như hoàn hảo trên tất cả các loại bài toán. Phân tích lỗi cho thấy lỗi thủ tục là lỗi thường gặp nhất, ảnh hưởng đáng kể đến hiệu suất tổng thể, trong khi lỗi khái niệm tương đối hiếm. Việc sử dụng cấu hình tác tử kép đã cải thiện đáng kể hiệu suất tổng thể. Những kết quả này cung cấp những hiểu biết thiết thực để cải thiện hiệu suất LLM và làm nổi bật các chiến lược hiệu quả để tích hợp LLM vào giáo dục toán học, góp phần nâng cao độ chính xác của đào tạo và đánh giá dựa trên AI.