본 논문은 자동 질문 생성 시스템의 질문 평가를 자동화하기 위한 새로운 시스템인 MIRROR (Multi-LLM Iterative Review and Response for Optimized Rating)을 제안합니다. MIRROR는 GPT-4, Gemini, Llama2-70b와 같은 여러 최첨단 대규모 언어 모델(LLM)을 활용하여, 참여도, 교육적 가치, 비판적 사고 자극 능력 등을 고려한 질문 품질 평가를 자동화합니다. 실험 결과, MIRROR를 사용한 피드백 기반 접근 방식은 관련성, 적절성, 참신성, 복잡성, 문법적 정확성과 같은 인간 평가 지표 점수를 향상시켜 인간 평가 점수에 더 근접하게 만들었으며, 특히 GPT-4와 인간 전문가 간의 상관 계수를 향상시켰습니다. 오류 분석을 통해 MIRROR가 관련성과 적절성 향상에 크게 기여함을 확인했습니다.