본 논문은 pairwise 선호도 평가를 위한 대규모 언어 모델(LLM)을 심사위원으로 사용할 때 발생하는 노이즈 문제를 해결하고, 세 가지 선호도(선호, 비선호, 동점)를 고려한 평가 방식을 제안합니다. 특히, 평가 시 계산량(ITC)을 효과적으로 활용하고, 브래들리-테리-데이비슨(Bradley-Terry-Davidson) 공식을 사용하여 평가 결과를 집계하는 방법을 제시합니다. 이를 통해 기존 방식보다 정확도를 향상시키고, 인간 평가자의 수준에 근접하는 결과를 얻었습니다.