Sign In

Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints

Created by
  • Haebom
Category
Empty

저자

Sam Bowyer, Laurence Aitchison, Desi R. Ivanova

개요

본 논문은 대규모 언어 모델(LLM)의 성능 평가에서 유의미하고 신뢰할 수 있는 결과를 얻기 위해서는 엄격한 통계적 평가가 필수적이며, 특히 유효한 오차 범위와 유의성 검정이 중요하다고 주장한다. 현재 LLM 평가에서 사용되는 통계적 방법들은 중심극한정리(CLT)에 기반하는 경우가 많은데, 이는 수천 개의 예제로 구성된 벤치마크에는 적합하지만, 소규모의 특수화된 벤치마크를 사용하는 경우에는 불충분한 불확실성 추정치를 제공한다는 것이다. 논문에서는 소규모 데이터 설정에서 CLT 기반 방법이 불확실성을 크게 과소평가(오차 범위가 너무 작게 나타남)하는 것을 보여주고, 더 적절하고 구현이 용이한 대안적인 빈도주의 및 베이지안 방법들을 제안한다. 또한, 제안된 베이지안 방법을 위한 간단한 Python 라이브러리를 공개한다.

시사점, 한계점

시사점: 소규모 특수화된 벤치마크를 사용하는 LLM 평가에서 CLT 기반 방법의 한계를 명확히 제시하고, 더 적절한 빈도주의 및 베이지안 방법들을 제시하여 LLM 성능 평가의 신뢰성을 높일 수 있는 방향을 제시한다. 제공된 Python 라이브러리를 통해 연구자들이 손쉽게 더 정확한 불확실성 추정을 수행할 수 있도록 지원한다.
한계점: 본 논문은 position paper이므로 실증적인 연구 결과보다는 주장과 제안에 초점을 맞추고 있다. 제안된 베이지안 방법의 성능과 효율성에 대한 보다 심도있는 실험적 분석이 필요하다. 다양한 유형의 LLM과 벤치마크에 대한 일반화 가능성에 대한 추가적인 연구가 필요하다.
👍