Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam

Created by
  • Haebom
Category
Empty

저자

Gerd Kortemeyer, Alexander Caspar, Daria Horica

개요

본 연구는 현대적인 멀티모달 LLM이 무효성을 훼손하지 않으면서 대규모 개방형 미적분학 채점을 지원할 수 있는지 조사합니다. 대규모 1학년 시험에서 학생들의 손으로 쓴 답안은 GPT-5에 의해 채점되었으며, 조교(TA)가 사용한 것과 동일한 채점 기준을 사용하고 부분 점수도 허용했습니다. TA의 채점 결정은 정답으로 간주되었습니다. 우리는 부분 점수 임계값과 각 학생-항목에 대한 AI 점수와 모델 예상 점수 간의 편차를 기반으로 하는 문항 반응 이론(2PL) 위험 측정을 결합한 인간-개입 필터를 보정했습니다. 필터링되지 않은 AI-TA 일치는 중간 정도였으며, 낮은 위험의 피드백에는 적절했지만 높은 위험의 사용에는 적절하지 않았습니다. 신뢰도 필터링은 작업량-품질의 상쇄 관계를 명시적으로 만들었습니다. 더 엄격한 설정 하에서 AI는 인간 수준의 정확도를 제공했지만, 약 70%의 항목은 인간이 채점해야 했습니다. 심리 측정 패턴은 개방형 부분에 대한 낮은 위험, 채점 기준 체크포인트의 작은 집합, 지정된 답 영역과 작업이 나타나는 위치 간의 가끔의 정렬 불일치에 의해 제한되었습니다. 약간 더 높은 가중치와 보호 시간, 몇 가지 채점 기준에서 보이는 하위 단계, 더 강력한 공간 앵커링과 같은 실제적인 조정은 최고 성능을 높여야 합니다. 전반적으로, 보정된 신뢰도와 보수적인 라우팅을 통해 AI는 모호하거나 교육적으로 풍부한 응답에 전문가의 판단을 유보하면서 상당한 하위 집합의 일반적인 경우를 안정적으로 처리할 수 있습니다.

시사점, 한계점

AI는 중간 정도의 정확도로 채점이 가능하며, 낮은 위험의 피드백에는 적합하지만 높은 위험의 채점에는 제한적입니다.
신뢰도 필터링을 통해 AI 채점의 정확도를 높일 수 있지만, 인간의 개입이 필요한 항목의 비율이 증가합니다.
심리 측정 패턴은 낮은 위험, 제한된 채점 기준, 답 영역과 작업 위치 간의 정렬 불일치에 의해 영향을 받습니다.
가중치 조정, 보호 시간, 채점 기준 세분화, 공간적 앵커링 강화와 같은 실제적인 조정이 필요합니다.
AI는 일반적인 경우를 처리하고 전문가의 판단을 필요한 경우에만 활용하는 방식으로 활용될 수 있습니다.
👍