Benchmarking the Pedagogical Knowledge of Large Language Models
Created by
Haebom
저자
Maxime Lelievre, Amy Waldock, Meng Liu, Natalia Valdes Aspillaga, Alasdair Mackintosh, Maria Jose Ogando Portela, Jared Lee, Paul Atherton, Robin A. A. Ince, Oliver G. B. Garrod
개요
본 논문은 기존의 AI 성능 평가 벤치마크가 주로 내용 지식에 집중하는 한계를 극복하고, 교육학적 지식 평가를 위한 새로운 벤치마크인 "The Pedagogy Benchmark"를 제시합니다. 이 벤치마크는 교사 대상 전문성 개발 시험 문제를 바탕으로 다양한 교육학적 하위 영역 (예: 교수 전략, 평가 방법)을 다루는 질문들로 구성되어 있으며, 교차 영역 교육학적 지식(CDPK)과 특수 교육 요구 및 장애(SEND) 교육학적 지식 평가를 목표로 합니다. 97개 모델에 대한 실험 결과(정확도 28%~89%)와 비용 대비 정확도 분석, 그리고 모델 속성(토큰당 비용, 오픈/클로즈드 가중치 등) 기반의 온라인 리더보드(https://rebrand.ly/pedagogy) 제공을 통해 모델 성능을 분석하고 시각화합니다. LLM이 교육에 미치는 잠재력과 교육 분야 벤치마크의 중요성을 강조하며, 책임감 있고 증거 기반의 LLM 활용을 위한 기반을 마련하고자 합니다.