본 논문은 교사의 교수 내용 지식(PCK) 평가를 위한 성과 기반 과제 채점에서 대규모 언어 모델(LLM)의 활용 가능성과 한계를 탐색합니다. LLM을 이용한 자동 채점의 효율성을 고려하면서, 기존 기계 학습(ML) 및 인간 평가자와 비교하여 LLM이 구성과 무관한 변이(CIV)를 어떻게 유발하는지 분석합니다. 두 가지 PCK 하위 구성 요소(학생 사고 분석 및 교사 반응성 평가)를 대상으로 한 영상 기반 구성 응답 과제를 사용하여, 시나리오 변동성, 평가자 엄격성, 시나리오에 대한 평가자 민감도 세 가지 CIV 원인을 검토합니다. 일반화 선형 혼합 모델(GLMM)을 사용하여 인간 평가자, 지도 학습 ML, LLM 세 가지 채점 원천 간의 분산 요소와 평가자 수준 채점 패턴을 비교 분석합니다.