Bài báo này trình bày EducationQ, một khuôn khổ đối thoại đa tác nhân mới để đánh giá năng lực giáo dục của các mô hình ngôn ngữ quy mô lớn (LLM). EducationQ đánh giá hiệu quả năng lực giáo dục của các LLM thông qua một kịch bản giảng dạy động ảo. Kết quả đánh giá 14 LLM thuộc 13 ngành học thuật và 10 mức độ khó với 1.498 câu hỏi cho thấy không có mối tương quan tuyến tính giữa quy mô mô hình hoặc khả năng lập luận chung với hiệu quả giáo dục. Một số mô hình nguồn mở quy mô nhỏ hoạt động tốt hơn các mô hình thương mại quy mô lớn trong bối cảnh giáo dục, cho thấy các đánh giá truyền thống nên tập trung vào các phương pháp giảng dạy tương tác hơn là việc nhớ lại kiến thức. Một đánh giá phương pháp hỗn hợp kết hợp các số liệu định lượng, phân tích định tính và các nghiên cứu điển hình của chuyên gia xác định các điểm mạnh giáo dục đặc biệt (ví dụ: các chiến lược đặt câu hỏi phức tạp, cơ chế phản hồi thích ứng) được các mô hình hàng đầu sử dụng. Đánh giá của chuyên gia cho thấy 78% đồng ý với phân tích định tính tự động, chứng minh tính hợp lệ về mặt phương pháp luận của nghiên cứu này. Điều này cho thấy việc sử dụng LLM làm công cụ giáo dục đòi hỏi những cải tiến có mục tiêu đối với các hiệu ứng giáo dục cụ thể, vượt ra ngoài việc mở rộng quy mô đơn thuần.