본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 유의미하고 신뢰할 수 있는 성능 평가를 위해서는 타당한 오차 범위와 유의성 검정을 포함하는 엄격한 통계적 평가가 필수적임을 강조한다. 현재 통계적 측정이 보고될 때 중심극한정리(CLT)에 의존하는 경우가 많은데, 논문에서는 CLT 기반 방법이 수천 개의 예시로 구성된 벤치마크에는 적절하지만, 소규모의 고도로 특수화된 벤치마크를 사용하는 LLM 평가에는 적절한 불확실성 추정을 제공하지 못한다고 주장한다. 소규모 데이터 설정에서 CLT 기반 방법은 매우 부정확하게 작동하여 일반적으로 불확실성을 크게 과소평가(즉, 너무 작은 오차 범위 생성)한다는 것을 보여준다. 따라서 논문에서는 구현이 용이하고 이러한 점점 더 일반적인 시나리오에 더 적합한 대안적인 frequentist 및 Bayesian 방법을 제안하고, 이러한 Bayesian 방법을 위한 간단한 Python 라이브러리를 제공한다.