본 논문은 대규모 언어 모델(LLM)인 ChatGPT를 활용하여 작성된 시험 문제와 인간이 작성한 시험 문제를 학생들에게 무작위로 배포하고, 정답률과 LLM이 작성한 문제와 인간이 작성한 문제의 차이를 구분하는 능력을 평가하는 연구이다. SBERT를 이용하여 질문들의 벡터를 생성하고 코사인 유사도를 계산하여 ChatGPT가 작성한 질문이 강사의 질문 및 교재와 일관성이 있는지 확인하였다. 그 결과, 학생들은 ChatGPT를 사용하여 작성된 질문인지 아닌지를 구분하지 못했지만(Mann-Whitney U 검정, p = .309), LLM이 작성한 문제의 정답률은 인간이 작성한 문제보다 약 9% 낮았다(z = 2.702, p < .01). 이는 LLM이 작성한 문제가 더 어려웠거나 학생들이 강사의 질문 스타일을 더 잘 알고 있었기 때문일 수 있다. 결론적으로 LLM을 평가 문제 작성에 활용할 가능성이 있지만, 공정하고 잘 구성되고 강의 자료와 관련된 질문을 작성하는 데 주의해야 한다는 것을 시사한다.