TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models

작성자

Haebom

카테고리

Empty

저자

Rakshith S Srinivasa, Zora Che, Chen Bo Calvin Zhang, Diego Mares, Ernesto Hernandez, Jayeon Park, Dean Lee, Guillermo Mangialardi, Charmaine Ng, Ed-Yeremai Hernandez Cardona, Anisha Gunjal, Yunzhong He, Bing Liu, Chen Xing

TutorBench: A Dataset and Evaluation Benchmark for Tutoring LLMs

개요

본 논문은 학생들이 학습 보조 도구로 대규모 언어 모델(LLM)을 점점 더 많이 사용하는 현실에 맞춰, 튜터링의 미묘한 차이를 처리하는 데 능숙한 모델을 구축하는 것을 목표로 한다. 이를 위해, 학생들의 핵심 요구 사항을 파악하고, 적응하며, 개인화된 지침을 제공하고, 정확성을 갖춘 LLM을 평가하기 위한 데이터 세트 및 평가 벤치마크인 TutorBench를 소개한다. TutorBench는 고등학교 및 AP 수준의 교육 과정을 다루며, 전문가가 큐레이션한 1,490개의 샘플로 구성된다. 샘플은 적응형 설명 생성, 실행 가능한 피드백 제공, 효과적인 힌트 생성을 통한 능동 학습 촉진의 세 가지 일반적인 튜터링 작업에서 추출되었다. 튜터링의 복잡성을 고려하여, 샘플별 채점 기준표를 사용하여 모델 응답을 평가한다. TutorBench는 LLM-judge와 샘플별 채점 기준표를 사용하는 신뢰할 수 있고 세분화된 자동 평가 방법을 사용한다. 16개의 최첨단 LLM을 TutorBench에서 평가하여 성능과 동작에 대한 자세한 분석을 제공한다. 결과는 모든 최첨단 LLM이 56%를 넘지 못하며, 개선의 여지가 크다는 것을 보여준다. 모델들은 효과적인 지도, 진단, 지원에 필요한 모든 튜터링 기술을 보여주는 데 미흡하며, 모든 최첨단 모델이 관련 기준표에서 60% 미만의 통과율을 기록했다. Claude 모델은 능동 학습 지원에서 다른 모델보다 우수했지만, 다른 두 가지 사용 사례에서는 뒤쳐졌다. TutorBench를 통해 차세대 AI 튜터 개발을 위한 포괄적이고 포화되지 않은 벤치마크를 제공한다.

시사점, 한계점

•

시사점:

◦

TutorBench는 LLM 기반 튜터의 핵심 튜터링 기술을 평가하기 위한 새로운 벤치마크를 제공한다.

◦

16개의 최첨단 LLM의 성능 분석을 통해 개선의 여지를 확인했다.

◦

다양한 모델 간의 강점과 약점을 파악하여 모델 개발 방향을 제시했다.

•

한계점:

◦

모든 최첨단 LLM이 56%를 넘지 못하여, 튜터링 기술의 향상이 필요하다.

◦

각 모델의 튜터링 기술별 편차를 명확히 분석하여, 모델의 개선 방향을 제시해야 한다.

◦

Claude 모델이 특정 튜터링 기술에 강점을 보이는 반면, 다른 기술에서는 약점을 보이는 등 모델별 특성을 고려해야 한다.

PDF 보기

Made with Slashpage