본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 지시사항 따르기 능력 평가에 사용되는 자동 평가 방법, 특히 짝 비교 방식의 한계점을 다룹니다. 짝 비교 방식은 전이적 선호도를 가정하지만, 이 가정의 타당성은 충분히 탐구되지 않았습니다. 연구진은 AlpacaEval 프레임워크 내에서 비전이적 선호도의 존재를 조사하고 모델 순위에 미치는 영향을 분석했습니다. LLM 판정자의 비전이적 선호도로 인해 기준 모델 선택에 따라 순위가 민감하게 변하는 것을 발견하고, 이 문제를 완화하기 위해 라운드 로빈 토너먼트와 Bradley-Terry 선호도 모델을 결합한 방법을 제시합니다. 이 방법은 Chatbot Arena와의 Spearman 상관 계수와 Kendall 상관 계수를 모두 향상시켰습니다 (각각 95.0% -> 96.4%, 82.1% -> 86.3%). 또한, 라운드 로빈 토너먼트의 계산 비용을 줄이기 위해 동적 매칭 전략을 사용하는 Swiss-Wise Iterative Matchmaking (Swim) 토너먼트를 제안했습니다.