본 논문은 대규모 언어 모델(LLM) 학습의 어려움을 해결하기 위해 기울기 그룹화를 이용한 스케일링(SGG) 최적화기를 제안합니다. 기존 적응형 최적화기의 한계인 효율적이고 효과적인 매개변수별 학습률 추정 문제를 해결하고자, SGG는 각 계층의 기울기 통계를 클러스터로 그룹화하고 클러스터별 스케일링을 적용하여 매개변수별 학습률을 보정합니다. 이를 통해 그룹 단위 제약을 유지하면서 매개변수별 적응성을 확보합니다. 다양한 (M)LLM 벤치마크 실험 결과, SGG는 기존 최적화기와 원활하게 통합되며, 다양한 모델 크기에서 일관된 성능 향상과 빠른 수렴을 보입니다. 또한, 다양한 배치 크기와 학습률에서 안정성을 유지함을 보여줍니다.