본 논문은 LLM 기반 자동 평가 시스템의 편향성 문제, 특히 출력 길이에 대한 선호도 편향을 해결하기 위한 방법을 제시합니다. LLM 개발 과정에서 비용 효율성과 확장성 때문에 널리 사용되는 LLM 기반 자동 어노테이터는 인간 평가자와 달리 편향을 포함할 수 있으며, 이러한 편향은 제거하기 어렵습니다. 본 논문은 AlpacaEval을 사례 연구로 삼아, 일반화 선형 모델(GLM)을 이용하여 출력 길이 차이와 같은 매개 변수를 통제함으로써 자동 평가의 편향을 줄이는 회귀 분석 기법을 제안합니다. 이는 모델의 출력 길이를 동일하게 만든다는 가정하에 선호도를 예측하여, 길이 편향을 제거한 AlpacaEval을 만드는 것을 목표로 합니다. 결과적으로, 길이를 통제한 AlpacaEval은 LMSYS Chatbot Arena와의 상관관계를 더욱 높였습니다.