본 논문은 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조하며, 광범위한 경험적 연구를 통해 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했습니다. 구체적으로, 최적 학습률은 모델 파라미터와 데이터 크기에 대한 거듭제곱 법칙 관계를 따르고, 최적 배치 크기는 주로 데이터 크기에 따라 증가함을 밝혔습니다. 고정된 모델 및 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록 최적화 지형을 발견했으며, 이는 최적 하이퍼파라미터 플래토(평원)의 존재를 시사합니다. 연구진은 보편적이고 플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구를 개발하여 제공하며, 이 도구는 전수조사를 통해 찾은 전역 최적 LLM 성능과 불과 0.09% 차이를 보입니다. 본 연구는 모델의 희소성, 훈련 데이터 분포, 모델 구조의 변화에 걸쳐 놀라운 견고성을 보이는 스케일링 법칙을 제시하며, MoE 모델 및 밀집 트랜스포머와 같은 다양한 모델 형태와 구조를 통합하고 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구입니다. 약 100조 토큰을 사용하여 크기와 하이퍼파라미터가 다른 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용했습니다. 재현성과 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 https://step-law.github.io/ 저장소를 통해 순차적으로 공개할 예정입니다.