본 논문은 교육 평가에서 점차 중요해지고 있는 질문 생성(QG) 과제의 평가 방식에 대해 다룹니다. 기존 QG 평가 방식은 교육적 가치와의 연관성이 부족하다는 한계를 지적하며, 교육자들이 자주 사용하는 검사 문항 분석 기법을 QG 평가에 도입합니다. 주제 범위, 문항 난이도, 문항 변별력, 오답 효율성 등의 차원에서 질이 다른 후보 질문 쌍을 구성하고, 기존 QG 평가 방식이 이러한 차이를 효과적으로 구별하는지 조사합니다. 기존 방식의 한계를 밝히고, 학생 모델링 및 시뮬레이션을 위한 대규모 언어 모델을 활용하여 검사 문항 분석을 수행하는 새로운 QG 평가 프레임워크인 QG-SMS를 제안합니다. 광범위한 실험과 인간 평가 연구를 통해 시뮬레이션된 학생 프로필이 도입됨으로써 더 효과적이고 견고한 검사 문항 평가가 가능함을 보여줍니다.