본 논문은 다양한 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조한다. 광범위한 경험적 연구를 통해 모델 파라미터와 데이터 크기에 따른 최적 학습률의 거듭제곱 법칙 관계, 데이터 크기에 따른 최적 배치 크기의 비례 관계 등 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했다. 고정된 모델과 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 의미한다. 본 연구는 플러그 앤 플레이 방식의 보편적인 최적 하이퍼파라미터 도구를 제공하며, 이 도구로 추정된 테스트 세트 값은 완전 탐색을 통해 찾은 전역 최적 LLM 성능과 불과 0.09% 차이를 보인다. 이 법칙은 모델 스파스성, 훈련 데이터 분포, 모델 형태의 변화에 걸쳐 놀라운 견고성을 보여준다. 본 연구는 믹스처-오브-익스퍼츠 모델과 밀집 트랜스포머와 같은 다양한 모델 형태와 구조를 통합하고, 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구이다. 약 100조 토큰을 소모하여 다양한 크기와 하이퍼파라미터를 가진 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용하는 등 상당한 컴퓨팅 자원을 필요로 하는 광범위한 최적화 과정을 거쳤다. 재현성과 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 https://step-law.github.io/ 저장소를 통해 순차적으로 공개할 예정이다.