본 논문은 언어 모델(LM)의 출력 확률이 텍스트 내의 수치 정보와 얼마나 잘 맞는지(calibration)를 평가합니다. 특히, 주어진 문맥에서 여러 가능한 연속(continuation)을 가진 문장에 대해, LM이 각 연속의 확률을 실제 발생 확률에 맞춰 예측하는지 검증합니다. 예를 들어, 동전 던지기 결과를 예측하는 경우, 공정한 동전이라면 LM은 앞면과 뒷면에 동일한 확률을 할당해야 합니다. 그러나 실험 결과, 최신 LM들(GPT-4-0-mini, Llama-3.1-8B 등)은 단순한 설정에서도 잘못된 확률을 할당하고(poorly calibrated), 단어의 순서, 빈도 등과 같은 인공적인 요소(artifacts)에 의해 체계적인 편향을 보이는 것으로 나타났습니다.