본 논문은 효율적인 LLM 사전 훈련을 위해 학습률 ($\eta$) 및 가중치 감쇠 ($\lambda$)를 포함한 하이퍼파라미터 (HP)의 스케일링 법칙을 연구한다. 특히, AdamW timescale $\tau = B/(\eta \lambda D)$가 훈련 설정 전반에 걸쳐 일정하게 유지되어야 한다는 것을 확인하고, 최적 $\lambda$가 고정된 N 및 D에서 B에 선형적으로 스케일링됨을 보인다. 또한 최적 $\tau$가 토큰-파라미터 비율 D/N에 대한 정확한 power law를 따른다는 것을 보여주며, 이를 통해 대규모 훈련 전에 $\lambda_{opt}$를 정확하게 예측할 수 있다. 논문은 또한 최적 배치 크기 $B_{opt}$와 임계 배치 크기 $B_{crit}$에 대한 스케일링 법칙을 연구하며, $B_{opt}$와 $B_{crit}$는 모델 크기 N에 관계없이 D에 대한 power law로 스케일링됨을 발견했다. 마지막으로, 이러한 결과를 바탕으로 훈련 시간 및 계산 목표 하에서 Pareto-optimal N 및 D를 선택하는 방법을 분석했다.