대규모 언어 모델(LLM)의 장문, 지식 기반 역할극 대화 평가의 어려움을 해결하기 위해, 본 연구는 다중 턴 전문 교육 시뮬레이션에서 LLM 생성 응답과 인간 작성 응답을 비교했습니다. 인적 평가(N=38)와 자동화된 LLM-as-a-judge 평가를 통해, LLM 생성 응답의 품질이 턴이 지날수록 자연스러움, 맥락 유지, 전반적인 품질 측면에서 유의미하게 저하되는 것을 확인했습니다. 반면, 인간 작성 응답은 점차 개선되었습니다. 인적 평가 결과는 Gemini 2.0 Flash가 제로샷 쌍별 선호도 및 확률적 6샷 구성 요소 평가 모두에서 인간 평가자와 강력한 일치를 보이는 자동화된 LLM-as-a-judge 평가에 의해 검증되었습니다. 본 연구는 지식 기반 역할극 대화에서 LLM 저하를 드러내는 다중 턴 벤치마크를 제공하고, 교육 시뮬레이션에서 LLM의 신뢰할 수 있는 통합을 위한 검증된 하이브리드 평가 프레임워크를 제시합니다.