본 논문은 대규모 언어 모델(LLM)의 일반화 성능 향상 이유를 탐구한다. 컴퓨팅 최적화 체제(Chinchilla scaling laws) 하에서 LLM의 사전 훈련 목표에 대한 일반화 경계를 개발하고, 손실 함수의 분산을 고려하여 기존 경계를 강화하는 새로운 실증적 Freedman-type 마틴게일 집중 부등식을 도입한다. 일반화 경계는 토큰당 매개변수 수, 손실 분산, 고정 비트레이트에서의 양자화 오류라는 세 가지 해석 가능한 구성 요소로 분해된다. 컴퓨팅 최적 언어 모델의 규모가 커짐에 따라 데이터 지점당 매개변수 수는 일정하게 유지되지만, 손실 분산과 양자화 오류는 감소하여 더 큰 모델이 더 작은 일반화 격차를 가져야 함을 시사한다. 정보 이론적 관점에서 더 큰 모델이 더 양자화 가능한 이유를 조사하고, 새로운 정보를 통합하는 속도가 컴퓨팅 최적 경계에서 용량보다 느리게 증가함을 보여준다. 이러한 결과를 바탕으로 일반화 격차에 대한 스케일링 법칙을 제시하며, 경계는 규모에 따라 예측 가능하게 강해진다.