본 논문은 대규모 언어 모델(LLM)의 효율적인 사전 훈련을 위한 최적의 하이퍼파라미터(HP) 스케일링 법칙을 연구합니다. 특히 학습률(η)과 가중치 감쇠(λ)에 초점을 맞춰, 모델 크기(N), 데이터셋 크기(D), 배치 크기(B)가 증가함에 따라 HP를 어떻게 조정해야 하는지에 대한 공식을 제시합니다. 기존 연구에서 제시된 AdamW 시간척도(B/(ηλD))가 일정하게 유지되어야 한다는 주장을 검증하고, 고정된 N, D에서 최적 λ가 B에 따라 선형적으로 증가함을 확인합니다. 하지만 N, D가 증가할 때 최적 시간척도는 토큰-파라미터 비율(D/N)에 대한 정확한 거듭제곱 법칙을 따르며, 이를 통해 대규모 훈련 전에 최적 λ를 정확하게 예측하는 방법을 제공합니다. 또한 최적 배치 크기(Bopt)와 임계 배치 크기(Bcrit)에 대한 스케일링 법칙을 연구하며, 기존 연구와 달리 Bopt와 Bcrit 모두 모델 크기 N과 무관하게 D에 대한 거듭제곱 법칙을 따름을 발견합니다. 마지막으로, 이러한 연구 결과가 훈련 시간과 계산 목표를 동시에 고려하여 Pareto-optimal N과 D를 선택하는 데 어떻게 활용될 수 있는지 분석합니다.