LLM 기반 벤치마크는 복잡한 모델 동작 평가에 널리 사용되지만, 기존의 정답 기반 벤치마크에서는 나타나지 않는 실패 모드를 도입합니다. 본 논문에서는 엄격한 목표와 검증 가능한 구성을 갖추지 않으면 벤치마크 순위가 실제로는 노이즈에 가까운 높은 신뢰도의 순위를 생성할 수 있다고 주장합니다. 이를 진단하기 위해 두 가지 메커니즘을 제시합니다. 첫째, 스키마 준수는 심사위원의 전반적인 평결 중 명시적인 평가 스키마에 의해 설명되는 정도를 정량화하여, 심사위원이 자체 채점 기준에서 벗어날 때 설명되지 않는 분산을 드러냅니다. 둘째, 심리 측정 타당성은 내적 일관성과 판별 타당성 신호를 집계하여 벤치마킹 과정에서 불가피한 불확실성을 정량화합니다. Arena-Hard Auto에 이 도구들을 적용한 결과, DeepSeek-R1-32B의 경우 설명되지 않는 분산이 90% 이상이고 대부분의 기준에서 요인 상관관계가 0.93 이상인 등, 널리 사용되는 심사위원 간 심각한 스키마 비일관성과 요인 붕괴가 발견되었습니다. 또한, Arena-Hard Auto에서 사용된 ELO 스타일 집계가 실제 순위 불확실성을 무시하고 은폐한다는 것을 보여줍니다. 연구 결과는 타당성을 저해하는 설계 실패를 강조하며, 더 나은 범위 설정과 신뢰성을 고려한 LLM 기반 벤치마크 구축을 위한 실행 가능한 원칙을 제시합니다.