대규모 언어 모델(LLM)의 완전 미세 조정은 메모리 집약적인 작업이다. 이는 SGD나 Adam과 같은 기존 옵티마이저가 캐싱된 활성화로부터 파생된 정확한 기울기에 접근한다고 가정하기 때문이다. GradLite는 중간 활성화를 적극적으로 폐기하거나 근사해도 효율적인 훈련을 가능하게 하는 backward-friendly 옵티마이저이다. GradLite는 (i) 저랭크 야코비안 근사 및 (ii) 오류 피드백 보정을 활용한다. 이론적 분석을 통해 GradLite가 제한된 분산을 가진 편향되지 않은 기울기 추정치를 유지하여 Adam과 유사한 수렴 속도를 보장함을 보여준다. 실험적으로 GradLite는 아키텍처 변경 없이 옵티마이저 상태 및 활성화 메모리 소비를 최대 50%까지 줄이고, 체크포인팅 및 옵티마이저 중심의 기준선(LoMo, GaLore)에 비해 추론(MMLU, GSM8K), 다국어 및 대화 벤치마크에서 동등하거나 우수한 성능을 달성한다.