본 논문은 대규모 언어 모델(LLM) 평가에서 벤치마크 데이터의 유출이 중요한 문제임을 다룬다. 소규모 오염이 벤치마크 평가를 무효화한다는 일반적인 가정에 대해 실험적으로 검증한다. 모델 파라미터 수, 예제 노출 횟수, 훈련 토큰 수 세 가지 차원에 따른 벤치마크 과적합 정도를 정량화한다. 모델과 데이터가 Chinchilla 스케일링 법칙을 따르면, 사소한 오염도 과적합으로 이어진다. 그러나 훈련 데이터가 Chinchilla 스케일링의 5배를 넘어서는 경우(현대의 많은 LLM의 특징) 144회의 오염조차 잊혀질 수 있다. OLMo-7B의 지속적 사전 훈련이 이 결과를 뒷받침한다. 또한, 가중치 감쇠 매개변수가 예제 망각에 미치는 영향을 연구하여 경험적 망각이 누적 가중치 감쇠보다 더 빠르게 발생함을 보여준다. 이를 통해 대규모 훈련 실행에서 예제 망각 정도를 측정할 수 있으며, Lllama 3 405B를 포함한 많은 LLM이 훈련 초기에 본 데이터를 잊었다는 것을 보여준다.