Grams: Gradient Descent with Adaptive Momentum Scaling
Created by
Haebom
Category
Empty
저자
Yang Cao, Xiaoyu Li, Zhao Song
개요
Grams (Gradient Descent with Adaptive Momentum Scaling)는 딥러닝에서 파라미터 업데이트의 방향과 크기를 분리하는 새로운 최적화 알고리즘입니다. 기존 최적화 알고리즘과 달리, Grams는 모멘텀을 업데이트에 직접 통합하지 않고, 현재 기울기에서 유도된 업데이트 방향과 적응적 크기 조절에만 사용되는 모멘텀을 분리합니다. 이러한 접근 방식을 통해 Grams는 최첨단의 신중한 모멘텀 기반 최적화 알고리즘보다 향상된 손실 감소를 달성합니다. 이론적으로 Grams가 다른 최첨단 최적화 알고리즘보다 더 빠르게 감소함을 증명하고 Grams에 대한 전역 수렴 보장을 확립했습니다. 또한 광범위한 실험적 평가를 통해 그 효과를 검증했습니다. 결과는 Adam, Lion 및 그 신중한 변형과 같은 널리 사용되는 최적화 알고리즘과 비교하여 Grams의 우수한 성능(더 빠른 수렴 및 더 나은 일반화 포함)을 보여줍니다. 결과는 Grams가 대규모 언어 모델을 효율적으로 훈련하고 미세 조정하는 혁신적인 접근 방식으로서의 잠재력을 강조합니다. 코드는 https://github.com/Gunale0926/Grams 에서 이용 가능합니다.