본 연구는 현대적인 멀티모달 LLM이 무효성을 훼손하지 않으면서 대규모 개방형 미적분학 채점을 지원할 수 있는지 조사합니다. 대규모 1학년 시험에서 학생들의 손으로 쓴 답안은 GPT-5에 의해 채점되었으며, 조교(TA)가 사용한 것과 동일한 채점 기준을 사용하고 부분 점수도 허용했습니다. TA의 채점 결정은 정답으로 간주되었습니다. 우리는 부분 점수 임계값과 각 학생-항목에 대한 AI 점수와 모델 예상 점수 간의 편차를 기반으로 하는 문항 반응 이론(2PL) 위험 측정을 결합한 인간-개입 필터를 보정했습니다. 필터링되지 않은 AI-TA 일치는 중간 정도였으며, 낮은 위험의 피드백에는 적절했지만 높은 위험의 사용에는 적절하지 않았습니다. 신뢰도 필터링은 작업량-품질의 상쇄 관계를 명시적으로 만들었습니다. 더 엄격한 설정 하에서 AI는 인간 수준의 정확도를 제공했지만, 약 70%의 항목은 인간이 채점해야 했습니다. 심리 측정 패턴은 개방형 부분에 대한 낮은 위험, 채점 기준 체크포인트의 작은 집합, 지정된 답 영역과 작업이 나타나는 위치 간의 가끔의 정렬 불일치에 의해 제한되었습니다. 약간 더 높은 가중치와 보호 시간, 몇 가지 채점 기준에서 보이는 하위 단계, 더 강력한 공간 앵커링과 같은 실제적인 조정은 최고 성능을 높여야 합니다. 전반적으로, 보정된 신뢰도와 보수적인 라우팅을 통해 AI는 모호하거나 교육적으로 풍부한 응답에 전문가의 판단을 유보하면서 상당한 하위 집합의 일반적인 경우를 안정적으로 처리할 수 있습니다.