본 논문은 단답형 채점(SAS)에서 주관식 답변 채점(SAG)의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 SAS를 위한 새로운 벤치마크인 SAS-Bench를 제안합니다. SAS-Bench는 기존 방식의 단점인 조잡한 점수, 상세한 추론 부족, 편향성 등을 해결하기 위해, 세분화된 단계별 채점, 전문가가 주석한 오류 범주, 다양한 유형의 질문들을 제공합니다. 실제 과학 과목 시험에서 추출된 1,030개의 질문과 4,190개의 학생 답변으로 구성된 오픈소스 데이터셋을 공개하며, 다양한 LLM을 이용한 실험을 통해 과학 관련 질문 채점의 어려움과 몇 번의 예시 학습(few-shot prompting)의 효과를 보여줍니다. 이는 더욱 견고하고 공정하며 교육적으로 의미있는 LLM 기반 평가 시스템 개발에 대한 통찰력을 제공합니다.