Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking
Created by
Haebom
저자
Athanasios Glentis, Jiaxiang Li, Qiulin Shang, Andi Han, Ioannis Tsaknakis, Quan Wei, Mingyi Hong
개요
본 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 발생하는 높은 메모리 및 연산 자원 소모 문제를 해결하기 위한 연구이다. 기존의 효율적인 사전 훈련 방법들을 종합적으로 조사하고, 여러 메모리 효율적인 사전 훈련 방법들의 성능을 벤치마크 평가하여 최적의 방법을 찾고자 한다. 특히, 저랭크 방법의 성능 향상을 위한 두 가지 실용적인 기법인 가중치 재구성(weight refactorization)과 모멘텀 재설정(momentum reset)을 제안한다. 실험 결과, 제안된 기법을 저랭크 방법에 적용하여 기존의 GaLore나 Fira와 같은 메모리 효율적인 알고리즘보다 낮은 퍼플렉서티를 달성하면서 약 25%의 메모리를 절감하는 것을 확인하였다.
시사점, 한계점
•
시사점:
◦
LLM 사전 훈련의 효율성을 높이는 다양한 방법들의 성능을 비교 분석하여 실제적인 효과를 검증하였다.
◦
저랭크 방법의 성능 향상을 위한 효과적인 기법인 가중치 재구성과 모멘텀 재설정을 제안하였다.
◦
제안된 기법을 통해 메모리 사용량을 줄이면서도 성능을 향상시킬 수 있음을 보였다.
•
한계점:
◦
연구는 10억 파라미터 모델을 중심으로 진행되었으므로, 더 큰 모델에 대한 일반화 가능성을 검증할 필요가 있다.