Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Created by

Haebom

저자

Cole Walsh, Rodica Ivan

💡 개요

본 연구는 대규모 언어 모델(LLM) 기반 채점 시스템이 평가하고자 하는 내용과 관련 없는 요소(construct-irrelevant factors)에 얼마나 강건한지를 상황 판단 테스트의 짧은 에세이형 응답을 대상으로 조사했습니다. 그 결과, LLM 기반 시스템은 의미 없는 텍스트 추가, 철자 오류, 글쓰기 숙련도 등에는 대체로 강건한 성능을 보였습니다.

🔑 시사점 및 한계

•

LLM 기반 채점 시스템은 의미 없는 텍스트나 철자 오류와 같은 일부 construct-irrelevant factors에 대해 기존 시스템보다 향상된 강건성을 나타낼 수 있습니다.

•

텍스트 반복은 오히려 점수 예측을 낮추는 경향을 보였는데, 이는 기존 연구 결과와 차이를 보입니다.

•

평가 대상에서 벗어난 응답은 LLM 기반 시스템에 의해 심각하게 감점 처리되어, 내용 관련성에 초점을 맞춘 설계의 중요성을 시사합니다.

•

향후 연구에서는 더 다양한 construct-irrelevant factors와 복잡한 응답 유형에 대한 LLM 기반 시스템의 강건성을 추가적으로 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage