Pensieve는 대규모 STEM 강의에서 필기된 서술형 답변 채점의 어려움을 해결하기 위해 개발된 AI 기반 채점 플랫폼이다. 대규모 언어 모델(LLM)을 활용하여 학생들의 답안을 필기체 변환하고 평가하여 채점 기준에 맞는 점수, 필기체 변환 결과, 신뢰도 점수를 교사에게 제공한다. 단순히 필기체 변환이나 채점 기준 생성에만 집중하는 기존 도구와 달리, 스캔된 학생 제출물부터 최종 피드백까지 채점 과정 전체를 지원하는 인간-컴퓨터 상호 작용 인터페이스를 제공한다. 20개 이상의 교육 기관에서 실제 강의에 배포되어 30만 건 이상의 학생 답변을 채점했으며, 컴퓨터 과학, 수학, 물리학, 화학 등 네 가지 핵심 STEM 분야에서 시스템 세부 정보와 실험 결과를 제시한다. 결과는 평균 65%의 채점 시간 단축과 높은 신뢰도 예측에 대해 교사가 부여한 점수와 95.4%의 일치율을 보여준다.