본 논문은 Chatbot Arena와 같은 플랫폼을 통해 이루어지는 대규모 언어 모델(LLM)의 쌍대 비교 평가를 개선하기 위한 통계적 프레임워크를 제안한다. 기존의 쌍대 비교 분석의 한계점인 동점 처리, 경쟁 모델 간의 공분산 고려, 그리고 모수의 비일의성 문제를 해결하기 위해, (1) 동점을 효과적으로 처리하는 인자화된 동점 모델, (2) 경쟁 모델 간의 공분산을 고려하는 확장된 프레임워크, (3) 안정적이고 해석 가능한 모수 추정을 위한 새로운 제약 조건을 제시한다. 제안된 프레임워크는 기존 방법들보다 우수한 성능을 보이며, 오픈소스 Python 패키지 leaderbot으로 공개되어 재현성과 실용성을 높였다.