Sign In

MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation

Created by
  • Haebom
Category
Empty

저자

Aniket Deroy, Subhankar Maity, Sudeshna Sarkar

개요

본 논문은 자동 질문 생성 시스템의 질문 평가를 자동화하기 위한 새로운 시스템인 MIRROR (Multi-LLM Iterative Review and Response for Optimized Rating)을 제안합니다. MIRROR는 GPT-4, Gemini, Llama2-70b와 같은 여러 최첨단 대규모 언어 모델(LLM)을 활용하여, 참여도, 교육적 가치, 비판적 사고 자극 능력 등을 고려한 질문 품질 평가를 자동화합니다. 실험 결과, MIRROR를 사용한 피드백 기반 접근 방식은 관련성, 적절성, 참신성, 복잡성, 문법적 정확성과 같은 인간 평가 지표 점수를 향상시켜 인간 평가 점수에 더 근접하게 만들었으며, 특히 GPT-4와 인간 전문가 간의 상관 계수를 향상시켰습니다. 오류 분석을 통해 MIRROR가 관련성과 적절성 향상에 크게 기여함을 확인했습니다.

시사점, 한계점

시사점:
대규모 질문 생성 시스템의 효율적인 자동 평가 시스템 제공
LLM 기반 피드백 접근 방식을 통해 인간 수준의 질문 평가에 근접
관련성 및 적절성 향상에 효과적인 방법 제시
자동 질문 생성 시스템의 질적 향상에 기여
한계점:
제시된 LLM 외 다른 모델에 대한 일반화 가능성 검증 필요
인간 평가와의 완벽한 일치는 여전히 어려움
다양한 질문 유형 및 맥락에 대한 범용성 검증 필요
LLM의 편향성 및 한계가 평가 결과에 미칠 영향에 대한 추가 연구 필요
👍