am-ELO: A Stable Framework for Arena-based LLM Evaluation
Created by
Haebom
저자
Zirui Liu, Jiatong Li, Yan Zhuang, Qi Liu, Shuanghong Shen, Jie Ouyang, Mingyue Cheng, Shijin Wang
개요
본 논문은 대규모 언어 모델(LLM) 평가를 위한 안정적인 아레나 기반 프레임워크를 제시합니다. 기존 ELO 등급 시스템 기반 프레임워크의 불안정성 문제(순위 불일치 및 평가자 능력 차이 고려 부족)를 해결하기 위해, 최대우도추정(MLE) 방식을 활용한 m-ELO를 제안합니다. m-ELO는 이론적으로 순위의 일관성과 안정성을 보장하며, 평가자 능력을 고려한 확률 함수를 사용하는 am-ELO를 통해 모델 점수와 평가자 신뢰도를 동시에 추정합니다. 실험 결과, 제안된 프레임워크가 더욱 강력하고 정확하며 안정적인 LLM 평가 방법임을 보여줍니다.