Pre-Training LLMs on a budget: A comparison of three optimizers
Created by
Haebom
저자
Joel Schlotthauer, Christian Kroos, Chris Hinze, Viktor Hangya, Luzian Hahn, Fabian Kuch
개요
본 논문은 대규모 언어 모델(LLM)의 사전 훈련 시간 단축 및 성능 향상에 결정적인 역할을 하는 세 가지 주요 최적화 알고리즘(AdamW, Lion, Sophia)을 비교 분석합니다. 두 가지 기본 아키텍처와 단일 및 다중 에포크 접근 방식을 사용하여 토큰 수를 일정하게 유지하면서 실험을 진행했습니다. Maximal Update Parametrization과 작은 프록시 모델을 이용하여 각 기본 아키텍처와 최적화 알고리즘 조합에 대해 관련 하이퍼파라미터를 개별적으로 조정했습니다.
시사점, 한계점
•
시사점:
◦
세 가지 최적화 알고리즘 모두 유사한 성능 범위를 보였으나, Sophia는 훈련 및 검증 손실이 가장 낮았습니다.
◦
Lion은 훈련 GPU 시간이 가장 짧았습니다.
◦
AdamW는 최상의 하류 평가 결과를 도출했습니다.
◦
다양한 아키텍처와 훈련 전략에 따른 최적화 알고리즘의 상대적 성능을 비교 분석하여 실제 적용에 유용한 지침을 제공합니다.
•
한계점:
◦
프록시 모델을 사용하여 실험을 진행했으므로, 실제 대규모 모델에 대한 결과와 차이가 있을 수 있습니다.