본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 기존 방식의 한계를 극복하기 위해, 토너먼트 방식의 반복적인 쌍대 비교를 활용한 'Knockout Assessment' 방법을 제시합니다. 기존의 개별 평가 또는 단일 라운드 쌍대 비교 방식과 달리, Knockout Assessment는 LLM이 전반적인 순위를 고려하여 평가할 수 있도록 합니다. 세 가지 LLM과 두 가지 데이터셋을 이용한 실험 결과, Knockout Assessment는 대학교 수준 시험 채점 및 기계 번역 평가에서 전문가 평가와의 Pearson 상관관계를 평균 0.07 향상시키는 등 채점 정확도를 높이고, LLM 평가를 인간 채점과 더 일치시키는 것으로 나타났습니다.