본 논문은 딥러닝에서 매개변수 업데이트의 방향과 크기를 분리하는 새로운 최적화 알고리즘인 Grams(Gradient Descent with Adaptive Momentum Scaling)를 제안합니다. 기존 최적화 알고리즘과 달리, Grams는 현재 기울기로부터 업데이트 방향을, 모멘텀으로부터 적응적 크기 조절을 독립적으로 계산합니다. 이를 통해 최첨단의 신중한 모멘텀 기반 최적화 알고리즘보다 향상된 손실 감소를 달성합니다. 이론적으로 Grams가 다른 최첨단 최적화 알고리즘보다 빠르게 수렴함을 증명하고 전역 수렴 보장을 확립했습니다. 또한 광범위한 실험적 평가를 통해 Adam, Lion 및 그 변형 알고리즘과 비교하여 더 빠른 수렴과 향상된 일반화 성능을 보여줍니다. 특히 대규모 언어 모델 학습에 효율적인 접근 방식으로서 Grams의 잠재력을 강조합니다. 소스 코드는 GitHub에서 공개됩니다.