Sign In

Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints

Created by
  • Haebom
Category
Empty

저자

Sam Bowyer, Laurence Aitchison, Desi R. Ivanova

개요

본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 통계적 유의성 검정 및 신뢰구간 산출의 중요성을 강조하며, 특히 소규모 전문화된 벤치마크를 사용하는 평가에서 중심극한정리(CLT) 기반 방법의 한계를 지적합니다. CLT 기반 방법은 대규모 샘플에 적합하지만, 소규모 데이터에서는 불확실성을 과소평가하여 신뢰구간이 너무 작게 나타나는 문제가 있다고 주장합니다. 따라서 보다 적절한 대안으로서 구현이 용이한 frequentist 및 Bayesian 방법들을 제안하고, 해당 Bayesian 방법들을 위한 Python 라이브러리를 공개합니다.

시사점, 한계점

시사점: 소규모 데이터 기반 LLM 평가의 신뢰성 향상을 위한 새로운 frequentist 및 Bayesian 방법론 제시 및 실용적인 Python 라이브러리 제공. CLT 기반 방법의 한계를 명확히 제시하여 LLM 평가의 정확성 향상에 기여.
한계점: 제안된 Bayesian 방법의 일반적인 LLM 평가 벤치마크에 대한 적용성 및 효율성에 대한 추가적인 실험적 검증 필요. 다양한 유형의 LLM 및 벤치마크에 대한 robustness 분석 부족. 제시된 Python 라이브러리의 확장성 및 유지보수에 대한 고려 필요.
👍