본 논문은 대규모 언어 모델(LLM)과 같은 AI 시스템의 성능을 확실하게 추정하고, 이러한 추정의 불확실성을 체계적으로 정량화하는 방법론인 HiBayES를 제안한다. HiBayES는 계층적 베이지안 모델링 프레임워크로, 특히 데이터가 부족한 상황(평가당 20개 미만의 데이터 포인트)에서도 견고한 추론을 지원한다. 일반화 선형 모델(GLM), 베이지안 데이터 분석, 형식적 모델 비교를 기반으로 하며, 원칙에 기반한 불확실성 정량화와 견고한 매개변수 추정을 제공한다. 본 논문은 HiBayES에 대한 포괄적인 소개와 함께, 예시, 기존 통계 방법과의 비교, 다수준 베이지안 GLM 구현을 위한 실용적인 지침을 제공하며, HiBayES 소프트웨어 패키지(베타 버전)도 제공한다.