Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models

Created by
  • Haebom

저자

Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui

개요

본 논문은 단답형 채점(SAS)에서 주관식 답변 채점(SAG)의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 SAS를 위한 새로운 벤치마크인 SAS-Bench를 제안합니다. SAS-Bench는 기존 방식의 단점인 조잡한 점수, 상세한 추론 부족, 편향성 등을 해결하기 위해, 세분화된 단계별 채점, 전문가가 주석한 오류 범주, 다양한 유형의 질문들을 제공합니다. 실제 과학 과목 시험에서 추출된 1,030개의 질문과 4,190개의 학생 답변으로 구성된 오픈소스 데이터셋을 공개하며, 다양한 LLM을 이용한 실험을 통해 과학 관련 질문 채점의 어려움과 몇 번의 예시 학습(few-shot prompting)의 효과를 보여줍니다. 이는 더욱 견고하고 공정하며 교육적으로 의미있는 LLM 기반 평가 시스템 개발에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM 기반 SAS를 위한 새로운 벤치마크 SAS-Bench 제시
세분화된 단계별 채점 및 전문가 주석으로 모델의 추론 과정 및 설명 가능성 평가 가능
실제 시험 데이터 기반의 다양한 질문 유형 제공
오픈소스 데이터셋 공개를 통한 연구 활성화
few-shot prompting의 효과를 실험적으로 증명
LLM 기반 평가 시스템 개발에 대한 중요한 통찰력 제공
한계점:
현재는 과학 관련 질문에 집중되어 다른 과목으로의 일반화 가능성은 추가 연구 필요
LLM의 편향성 및 인간 판단과의 불일치 문제 완전 해결 여부는 추가 연구 필요
SAS-Bench의 범용성 및 확장성에 대한 추가 검증 필요
👍