Sign In

SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Created by
  • Haebom
Category
Empty

저자

Tianjin Huang, Ziquan Zhu, Gaojie Jin, Lu Liu, Zhangyang Wang, Shiwei Liu

개요

본 논문은 대규모 언어 모델(LLM) 훈련 중 발생하는 기울기 및 손실 스파이크 문제를 다룹니다. 이러한 스파이크는 훈련 불안정성의 주요 원인으로, 모델 성능 저하와 훈련 비효율성을 야기합니다. 논문에서는 여러 아키텍처와 데이터셋에서 관찰되는 기울기 스파이크의 빈도와 심각성을 분석하고, 이를 해결하기 위해 모멘텀 재설정 및 스파이크 인식 기울기 클리핑을 통해 기울기 스파이크를 방지하는 새로운 최적화 알고리즘인 SPAM(Spike-Aware Adam with Momentum Reset)을 제안합니다. 실험 결과, SPAM은 다양한 과제(LLM 사전 훈련, 4비트 LLM 사전 훈련, 강화 학습, 시계열 예측)에서 Adam 및 그 변형보다 우수한 성능을 보였으며, 메모리 제약 하에서는 GaLore 및 Adam-Mini와 같은 최첨단 메모리 효율적인 최적화 알고리즘보다 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
LLM 훈련 중 발생하는 기울기 스파이크 문제의 심각성을 규명하고, 그 해결책을 제시함.
SPAM 최적화 알고리즘을 통해 LLM 훈련의 안정성과 효율성을 향상시킬 수 있음을 실험적으로 증명함.
SPAM은 메모리 효율적인 훈련을 가능하게 하여, 자원 제약 하에서도 LLM 훈련의 성능을 향상시킴.
제시된 코드를 통해 재현성과 확장성을 확보함.
한계점:
SPAM 알고리즘의 일반화 성능에 대한 추가적인 연구가 필요함.
다양한 LLM 아키텍처와 데이터셋에 대한 더욱 광범위한 실험이 필요함.
SPAM 알고리즘의 하이퍼파라미터 최적화에 대한 추가적인 연구가 필요함.
👍