본 논문은 자동 질문 생성 시스템의 질문 품질 평가를 자동화하는 새로운 시스템인 MIRROR (Multi-LLM Iterative Review and Response for Optimized Rating)을 제안합니다. MIRROR는 GPT-4, Gemini, Llama2-70b와 같은 최신 대규모 언어 모델(LLM)을 활용하여 관련성, 적절성, 참신성, 복잡성, 문법적 정확성 등의 평가 지표를 자동으로 평가합니다. 실험 결과, MIRROR를 사용한 피드백 기반 접근 방식은 인간 평가자의 점수에 더 근접한 결과를 보였으며, 특히 GPT-4와 인간 전문가 간의 상관 관계를 향상시켰습니다. 오류 분석을 통해 MIRROR가 관련성과 적절성 개선에 크게 기여함을 확인했습니다.