본 논문은 대규모 언어 모델(LLM) 기반 AI 튜터의 교육적 능력을 평가하기 위한 공유 과제를 소개한다. 학생의 실수 수정을 목표로 하는 AI 튜터의 응답 품질을 평가하는 데 초점을 맞추었으며, 실수 식별, 정확한 위치 파악, 지침 제공, 피드백 실행 가능성 등 주요 측면에 걸쳐 AI 튜터의 성능을 자동으로 평가하도록 설계된 5개의 트랙으로 구성되었다. 50개 이상의 국제 팀이 참여하였고, 제출된 모델은 골드 스탠다드 인간 주석과 비교 평가되었다. 결과는 유망하지만 개선의 여지가 있음을 보여준다. 4개의 교육적 능력 평가 트랙에서 최고의 결과는 3등급 문제에서 매크로 F1 점수 58.34(지침 제공)에서 71.81(실수 식별) 범위였으며, 튜터 식별 트랙의 최고 F1 점수는 9등급 과제에서 96.98에 달했다. 본 논문에서는 공유 과제의 주요 결과를 개괄하고, 팀이 채택한 접근 방식을 논의하며, 성과를 분석한다. 모든 관련 자료는 향후 연구를 지원하기 위해 공개적으로 제공된다.