본 논문은 대규모 언어 모델(LLM)의 훈련 비용이 기하급수적으로 증가함에 따라, 훈련 효율성 향상을 위한 새로운 기법들이 개발되고 있지만 최적의 모델 크기 예측 및 자원 할당은 여전히 어려운 과제임을 지적합니다. 기존의 스케일링 법칙들은 대부분 밀집형 또는 희소형 아키텍처에 특화되어 있기에, 본 논문에서는 밀집형과 희소형 LLM 모두에 적용 가능한 일반화된 스케일링 법칙을 제안하고, 기존 스케일링 법칙들과의 비교 평가를 통해 그 효과를 입증합니다.