본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 유의미하고 신뢰할 수 있는 결과를 얻기 위해서는 엄격한 통계적 평가가 필수적이며, 특히 유효한 오차 범위와 유의성 검정이 중요하다고 주장한다. 현재 LLM 평가에서 사용되는 통계적 방법들은 중심극한정리(CLT)에 기반하는 경우가 많은데, 이는 수천 개의 예제로 구성된 벤치마크에는 적합하지만, 소규모의 특수화된 벤치마크를 사용하는 경우에는 불충분한 불확실성 추정치를 제공한다는 것이다. 논문에서는 소규모 데이터 설정에서 CLT 기반 방법이 불확실성을 크게 과소평가(오차 범위가 너무 작게 나타남)하는 것을 보여주고, 더 적절하고 구현이 용이한 대안적인 빈도주의 및 베이지안 방법들을 제안한다. 또한, 제안된 베이지안 방법을 위한 간단한 Python 라이브러리를 공개한다.