Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models

Created by
  • Haebom

저자

Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui

개요

본 논문은 대규모 언어 모델(LLM) 기반 단답형 채점(SAS) 시스템의 한계를 극복하기 위해 새로운 벤치마크인 SAS-Bench를 제시한다. SAS-Bench는 기존의 단순한 점수 부여 방식을 넘어, 세분화된 단계별 채점, 전문가가 주석한 오류 범주, 다양한 유형의 질문들을 제공하여 모델의 추론 과정과 설명 가능성에 대한 상세한 평가를 가능하게 한다. 실제 과학 과목 시험에서 추출한 1,030개의 질문과 4,109개의 학생 답변으로 구성된 오픈소스 데이터셋도 함께 공개하며, 다양한 LLM을 이용한 실험을 통해 과학 관련 질문 채점의 어려움과 몇 번의 예시 학습(few-shot prompting)이 채점 정확도 향상에 효과적임을 보여준다. 이는 더욱 견고하고 공정하며 교육적으로 의미있는 LLM 기반 평가 시스템 개발에 대한 귀중한 통찰력을 제공한다.

시사점, 한계점

시사점:
LLM 기반 단답형 채점 시스템의 한계점을 명확히 제시하고 개선 방향을 제시한다.
세분화된 단계별 채점과 오류 범주를 제공하는 SAS-Bench 벤치마크를 통해 LLM의 추론 과정과 설명 가능성 평가를 가능하게 한다.
몇 번의 예시 학습(few-shot prompting)이 LLM 기반 채점 정확도 향상에 효과적임을 실험적으로 증명한다.
오픈소스 데이터셋 제공을 통해 LLM 기반 평가 시스템 연구를 활성화한다.
한계점:
SAS-Bench는 과학 과목에 집중되어 있어 다른 과목으로의 일반화 가능성에 대한 추가 연구가 필요하다.
현재 벤치마크는 특정 유형의 단답형 질문에 국한되어 있을 수 있으며, 다양한 유형의 질문에 대한 일반화 성능 검증이 필요하다.
LLM의 편향성 및 인간 판단과의 일관성 문제에 대한 완벽한 해결책을 제시하지는 않는다.
👍