본 논문은 대규모 언어 모델(LLM) 훈련 중 발생하는 기울기 및 손실 스파이크 문제를 다룹니다. 이러한 스파이크는 훈련 불안정성의 주요 원인으로, 모델 성능 저하와 훈련 비효율성을 야기합니다. 논문에서는 여러 아키텍처와 데이터셋에서 관찰되는 기울기 스파이크의 빈도와 심각성을 분석하고, 이를 해결하기 위해 모멘텀 재설정 및 스파이크 인식 기울기 클리핑을 통해 기울기 스파이크를 방지하는 새로운 최적화 알고리즘인 SPAM(Spike-Aware Adam with Momentum Reset)을 제안합니다. 실험 결과, SPAM은 다양한 과제(LLM 사전 훈련, 4비트 LLM 사전 훈련, 강화 학습, 시계열 예측)에서 Adam 및 그 변형보다 우수한 성능을 보였으며, 메모리 제약 하에서는 GaLore 및 Adam-Mini와 같은 최첨단 메모리 효율적인 최적화 알고리즘보다 뛰어난 성능을 보였습니다.