본 논문은 교육자의 시간을 절약하고 일관성을 보장하며 교수 자료 개선을 위한 즉각적인 피드백을 제공하기 위해 질문의 질을 자동으로 평가하는 새로운 방법론인 STRIVE(Structured Thinking and Refinement with multi-LLMs for Improving Verified Question Estimation)를 제안합니다. STRIVE는 여러 대규모 언어 모델(LLMs)을 사용하여 질문의 강점과 약점을 기반으로 여러 평가를 생성하고, 최적의 솔루션을 선택하여 질문의 질을 자동으로 평가합니다. LLM을 이용한 반복적인 검토 및 응답 과정을 통해 평가 지표 값이 수렴될 때까지 개선하며, 기존 방법보다 인간의 판단과의 상관관계를 향상시키고, 특히 관련성 및 적절성 지표에서 인간의 판단과의 상관관계를 크게 개선하는 것을 보여줍니다.