Sign In

Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Created by
  • Haebom
Category
Empty

저자

Cole Walsh, Rodica Ivan

💡 개요

본 연구는 대규모 언어 모델(LLM) 기반 채점 시스템이 평가하고자 하는 내용과 관련 없는 요소(construct-irrelevant factors)에 얼마나 강건한지를 상황 판단 테스트의 짧은 에세이형 응답을 대상으로 조사했습니다. 그 결과, LLM 기반 시스템은 의미 없는 텍스트 추가, 철자 오류, 글쓰기 숙련도 등에는 대체로 강건한 성능을 보였습니다.

🔑 시사점 및 한계

LLM 기반 채점 시스템은 의미 없는 텍스트나 철자 오류와 같은 일부 construct-irrelevant factors에 대해 기존 시스템보다 향상된 강건성을 나타낼 수 있습니다.
텍스트 반복은 오히려 점수 예측을 낮추는 경향을 보였는데, 이는 기존 연구 결과와 차이를 보입니다.
평가 대상에서 벗어난 응답은 LLM 기반 시스템에 의해 심각하게 감점 처리되어, 내용 관련성에 초점을 맞춘 설계의 중요성을 시사합니다.
향후 연구에서는 더 다양한 construct-irrelevant factors와 복잡한 응답 유형에 대한 LLM 기반 시스템의 강건성을 추가적으로 검증할 필요가 있습니다.
👍