본 논문은 대규모 언어 모델(LLM)을 중국 K-12 교육에 적용하기 위한 포괄적인 벤치마크인 EduEval을 소개합니다. EduEval은 Bloom의 분류법과 Webb의 지식 깊이를 통합한 EduAbility 분류법을 통해 인지 능력을 평가하고, 실제 시험 문제, 수업 대화, 학생 에세이 및 전문가가 설계한 프롬프트를 통합하여 교육적 현실을 반영합니다. 24개의 다양한 작업 유형과 11,000개 이상의 질문을 포함하며, 14개의 주요 LLM을 평가하여 모델의 강점과 약점을 파악하고 교육 목표에 맞는 접근 방식을 제시합니다.