본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 통계적 유의성 검정 및 신뢰구간 산출의 중요성을 강조하며, 특히 소규모 전문화된 벤치마크를 사용하는 평가에서 중심극한정리(CLT) 기반 방법의 한계를 지적합니다. CLT 기반 방법은 대규모 샘플에 적합하지만, 소규모 데이터에서는 불확실성을 과소평가하여 신뢰구간이 너무 작게 나타나는 문제가 있다고 주장합니다. 따라서 보다 적절한 대안으로서 구현이 용이한 frequentist 및 Bayesian 방법들을 제안하고, 해당 Bayesian 방법들을 위한 Python 라이브러리를 공개합니다.