본 논문은 대규모 언어 모델(LLM)의 자유 형식 출력을 자동으로 평가하는 어려움, 특히 여러 개의 서로 다른 답변이 동등하게 유효할 수 있다는 점에 초점을 맞춥니다. LLM을 심사자로 사용하는 일반적인 방법의 이론적 특성을 분석하기 위해, 심사자와 후보 모두를 확률 단순체 상의 점으로 나타내는 기하학적 프레임워크를 제시합니다. 이를 통해 LLM 심사자를 사용하여 식별 가능한 것과 불가능한 것을 이해하는 데 도움이 되는 통찰력을 제공합니다. 이론적 분석을 통해 순위 식별 가능성의 "상전이"를 발견하였는데, 이진 채점 시스템의 경우 약한 심사자를 사용하더라도 온화한 가정 하에 참 순위를 식별할 수 있지만, 추가적인 사전 지식이 없다면 3개 이상의 채점 수준에서는 무한한 데이터가 있어도 순위를 식별할 수 없게 됩니다. 이러한 비식별성은 순위의 불확실성이 단순히 확률적 불확실성(데이터의 고유한 확률적 성질)뿐만 아니라 어떤 가정이 성립하는지에 대한 인식론적 불확실성에서도 비롯됨을 강조합니다. 두 가지 유형의 불확실성을 통합하기 위해 베이지안 추론을 사용하여 가정을 사전 확률로 인코딩하고 순위 추정치와 신뢰 구간에 대한 민감도 분석을 수행합니다. 여러 벤치마크에 대한 실험적 평가를 통해 베이지안 추론이 더 정확한 순위를 산출하고 적중률을 상당히 향상시킴을 보여줍니다. 이러한 결과는 LLM을 심사자로 사용할 때 불확실성 정량화에 대한 보다 전체적인 접근 방식을 취하는 것이 중요함을 강조합니다.