본 논문은 비교 LLM-as-a-judge 프레임워크에서 일반화된 확률적 모델링 및 불확실성 추정을 탐구합니다. 기존의 Product-of-Experts 방법이 더 넓은 프레임워크의 특정 사례임을 보여주고, 다양한 모델링 옵션을 가능하게 합니다. 개별 비교에 대한 향상된 불확실성 추정을 제안하여 더 효율적인 선택을 가능하게 하고, 더 적은 평가로 강력한 성능을 달성합니다. 또한 전체 순위 불확실성을 추정하는 방법을 제시합니다. 마지막으로 절대 및 비교 점수를 결합하면 성능이 향상됨을 보여줍니다. 실험 결과, 특정 전문가 모델은 최종 순위에 미치는 영향이 제한적이지만 제안된 불확실성 추정, 특히 재정렬 확률은 시스템의 효율성을 크게 향상시켜 필요한 비교 횟수를 약 50% 줄입니다. 또한 순위 수준의 불확실성 지표를 사용하여 성능이 저조한 예측을 식별할 수 있으며, 여기서 확률적 모델의 특성이 전반적인 불확실성의 질에 상당한 영향을 미칩니다.