[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pre-Training LLMs on a budget: A comparison of three optimizers

Created by
  • Haebom

저자

Joel Schlotthauer, Christian Kroos, Chris Hinze, Viktor Hangya, Luzian Hahn, Fabian Kuch

개요

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 시간 단축 및 성능 향상에 결정적인 역할을 하는 세 가지 주요 최적화 알고리즘(AdamW, Lion, Sophia)을 비교 분석합니다. 두 가지 기본 아키텍처와 단일 및 다중 에포크 접근 방식을 사용하여 토큰 수를 일정하게 유지하면서 실험을 진행했습니다. Maximal Update Parametrization과 작은 프록시 모델을 이용하여 각 기본 아키텍처와 최적화 알고리즘 조합에 대해 관련 하이퍼파라미터를 개별적으로 조정했습니다.

시사점, 한계점

시사점:
세 가지 최적화 알고리즘 모두 유사한 성능 범위를 보였으나, Sophia는 훈련 및 검증 손실이 가장 낮았습니다.
Lion은 훈련 GPU 시간이 가장 짧았습니다.
AdamW는 최상의 하류 평가 결과를 도출했습니다.
다양한 아키텍처와 훈련 전략에 따른 최적화 알고리즘의 상대적 성능을 비교 분석하여 실제 적용에 유용한 지침을 제공합니다.
한계점:
프록시 모델을 사용하여 실험을 진행했으므로, 실제 대규모 모델에 대한 결과와 차이가 있을 수 있습니다.
비교 대상이 제한적이며, 다른 최적화 알고리즘에 대한 추가 연구가 필요합니다.
하이퍼파라미터 튜닝 과정에 대한 상세한 설명이 부족합니다.
👍