본 논문은 대규모 언어 모델(LLM)의 교육적 역량 평가를 위한 새로운 다중 에이전트 대화 프레임워크인 EducationQ를 제시합니다. EducationQ는 가상의 동적인 교육 시나리오를 통해 LLM의 교육 능력을 효율적으로 평가합니다. 14개의 LLM을 13개 학문 분야, 10개 난이도 수준에 걸쳐 1,498개 질문으로 평가한 결과, 모델의 크기나 일반적인 추론 능력과 교육 효과 간에는 선형적 상관관계가 없음을 밝혔습니다. 일부 소규모 오픈소스 모델이 대규모 상용 모델보다 교육적 맥락에서 더 나은 성능을 보였으며, 이는 기존 평가에서 지식 회상보다는 상호 작용적 교육 방식을 중시해야 함을 시사합니다. 정량적 지표와 질적 분석, 전문가 사례 연구를 결합한 혼합 방법론적 평가를 통해 상위 모델들이 사용하는 특징적인 교육적 강점 (예: 정교한 질문 전략, 적응적 피드백 메커니즘)을 파악했습니다. 전문가 평가는 자동화된 질적 분석 결과와 78%의 일치율을 보여, 본 연구의 방법론적 타당성을 입증합니다. LLM을 교육 도구로 활용하기 위해서는 단순한 규모 확장을 넘어 특정 교육적 효과에 대한 목표 지향적 개선이 필요함을 시사합니다.