본 논문은 학생들이 학습 보조 도구로 대규모 언어 모델(LLM)을 점점 더 많이 사용하는 현실에 맞춰, 튜터링의 미묘한 차이를 처리하는 데 능숙한 모델을 구축하는 것을 목표로 한다. 이를 위해, 학생들의 핵심 요구 사항을 파악하고, 적응하며, 개인화된 지침을 제공하고, 정확성을 갖춘 LLM을 평가하기 위한 데이터 세트 및 평가 벤치마크인 TutorBench를 소개한다. TutorBench는 고등학교 및 AP 수준의 교육 과정을 다루며, 전문가가 큐레이션한 1,490개의 샘플로 구성된다. 샘플은 적응형 설명 생성, 실행 가능한 피드백 제공, 효과적인 힌트 생성을 통한 능동 학습 촉진의 세 가지 일반적인 튜터링 작업에서 추출되었다. 튜터링의 복잡성을 고려하여, 샘플별 채점 기준표를 사용하여 모델 응답을 평가한다. TutorBench는 LLM-judge와 샘플별 채점 기준표를 사용하는 신뢰할 수 있고 세분화된 자동 평가 방법을 사용한다. 16개의 최첨단 LLM을 TutorBench에서 평가하여 성능과 동작에 대한 자세한 분석을 제공한다. 결과는 모든 최첨단 LLM이 56%를 넘지 못하며, 개선의 여지가 크다는 것을 보여준다. 모델들은 효과적인 지도, 진단, 지원에 필요한 모든 튜터링 기술을 보여주는 데 미흡하며, 모든 최첨단 모델이 관련 기준표에서 60% 미만의 통과율을 기록했다. Claude 모델은 능동 학습 지원에서 다른 모델보다 우수했지만, 다른 두 가지 사용 사례에서는 뒤쳐졌다. TutorBench를 통해 차세대 AI 튜터 개발을 위한 포괄적이고 포화되지 않은 벤치마크를 제공한다.