본 논문은 대규모 언어 모델(LLM)의 교육적 역량 평가를 위한 새로운 다중 에이전트 대화 프레임워크인 EducationQ를 제시합니다. 14개의 LLM을 13개 학문 분야, 10개 난이도 수준에 걸쳐 1,498개의 질문으로 평가한 결과, 모델의 크기나 일반적인 추론 능력과 교육 효과 간에는 선형적 상관관계가 없음을 밝혔습니다. 일부 소규모 오픈소스 모델이 대규모 상용 모델보다 교육적 맥락에서 더 나은 성능을 보였으며, 이는 지식 재현보다는 상호 작용적인 교육 방식에 대한 평가의 부족을 시사합니다. 정량적 지표와 정성적 분석 및 전문가 사례 연구를 결합한 혼합 방법론적 평가를 통해 상위 모델들이 사용하는 특징적인 교육적 강점(예: 정교한 질문 전략, 적응적 피드백 메커니즘)을 확인했습니다. 전문가 평가는 자동화된 정성적 분석 결과와 78%의 일치율을 보여 EducationQ의 방법론적 타당성을 입증했습니다. 결론적으로, LLM을 교육 도구로 활용하기 위해서는 단순한 규모 확장을 넘어 특정 교육적 효과에 대한 목표 지향적 개선이 필요함을 시사합니다.