Sign In

Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints

Created by
  • Haebom
Category
Empty

저자

Jing Yang, Kaitong Cai, Yijia Fan, Yufeng Yang, Keze Wang

GradLite: 메모리 효율적인 대규모 언어 모델 훈련을 위한 Backward-Friendly Optimizer

개요

대규모 언어 모델(LLM)의 완전 미세 조정은 메모리 집약적인 작업이다. 이는 SGD나 Adam과 같은 기존 옵티마이저가 캐싱된 활성화로부터 파생된 정확한 기울기에 접근한다고 가정하기 때문이다. GradLite는 중간 활성화를 적극적으로 폐기하거나 근사해도 효율적인 훈련을 가능하게 하는 backward-friendly 옵티마이저이다. GradLite는 (i) 저랭크 야코비안 근사 및 (ii) 오류 피드백 보정을 활용한다. 이론적 분석을 통해 GradLite가 제한된 분산을 가진 편향되지 않은 기울기 추정치를 유지하여 Adam과 유사한 수렴 속도를 보장함을 보여준다. 실험적으로 GradLite는 아키텍처 변경 없이 옵티마이저 상태 및 활성화 메모리 소비를 최대 50%까지 줄이고, 체크포인팅 및 옵티마이저 중심의 기준선(LoMo, GaLore)에 비해 추론(MMLU, GSM8K), 다국어 및 대화 벤치마크에서 동등하거나 우수한 성능을 달성한다.

시사점, 한계점

시사점:
메모리 효율적인 LLM 훈련을 위한 새로운 옵티마이저인 GradLite 제안.
저랭크 야코비안 근사 및 오류 피드백 보정을 활용하여 정확한 기울기 요구 사항을 완화.
아키텍처 변경 없이 메모리 사용량 감소 (최대 50%).
추론, 다국어, 대화 벤치마크에서 기존 방법과 비교하여 동등하거나 우수한 성능.
이론적 분석을 통해 수렴 보장.
한계점:
구체적인 성능 비교 대상 및 실험 환경에 대한 정보 부족.
추상적인 내용으로, 실제 적용 시의 세부적인 문제점이나 잠재적 한계에 대한 언급 부족.
향후 연구 방향에 대한 구체적인 제시 없음.
👍