Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading

Created by
  • Haebom

저자

Yoonseok Yang, Minjune Kim, Marlon Rondinelli, Keren Shao

개요

Pensieve는 대규모 STEM 강의에서 필기된 서술형 답변 채점의 어려움을 해결하기 위해 개발된 AI 기반 채점 플랫폼이다. 대규모 언어 모델(LLM)을 활용하여 학생들의 답안을 필기체 변환하고 평가하여 채점 기준에 맞는 점수, 필기체 변환 결과, 신뢰도 점수를 교사에게 제공한다. 단순히 필기체 변환이나 채점 기준 생성에만 집중하는 기존 도구와 달리, 스캔된 학생 제출물부터 최종 피드백까지 채점 과정 전체를 지원하는 인간-컴퓨터 상호 작용 인터페이스를 제공한다. 20개 이상의 교육 기관에서 실제 강의에 배포되어 30만 건 이상의 학생 답변을 채점했으며, 컴퓨터 과학, 수학, 물리학, 화학 등 네 가지 핵심 STEM 분야에서 시스템 세부 정보와 실험 결과를 제시한다. 결과는 평균 65%의 채점 시간 단축과 높은 신뢰도 예측에 대해 교사가 부여한 점수와 95.4%의 일치율을 보여준다.

시사점, 한계점

시사점:
AI 기반 자동 채점 시스템을 통해 STEM 분야 강의의 채점 시간을 상당히 단축할 수 있다. (평균 65%)
높은 정확도 (95.4%)로 교사의 채점과 일치하는 결과를 제공한다.
다양한 STEM 분야 (컴퓨터 과학, 수학, 물리학, 화학)에 적용 가능성을 보여준다.
인간-컴퓨터 상호 작용 인터페이스를 통해 교사의 개입을 효율적으로 지원한다.
한계점:
고신뢰도 예측에 대한 정확도만 제시되었고, 낮은 신뢰도 예측의 정확도나 오류 유형에 대한 분석이 부족하다.
시스템의 오류 가능성 및 그에 대한 대응 방안에 대한 자세한 설명이 부족하다.
다양한 서술형 답변 유형에 대한 일반화 가능성에 대한 추가 연구가 필요하다.
특정 유형의 답변이나 필기체에 대한 편향성 여부에 대한 검토가 필요하다.
👍