Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training

Created by
  • Haebom
Category
Empty

저자

Shane Bergsma, Nolan Dey, Gurpreet Gosal, Gavia Gray, Daria Soboleva, Joel Hestness

개요

본 논문은 효율적인 LLM 사전 훈련을 위해 학습률 ($\eta$) 및 가중치 감쇠 ($\lambda$)를 포함한 하이퍼파라미터 (HP)의 스케일링 법칙을 연구한다. 특히, AdamW timescale $\tau = B/(\eta \lambda D)$가 훈련 설정 전반에 걸쳐 일정하게 유지되어야 한다는 것을 확인하고, 최적 $\lambda$가 고정된 N 및 D에서 B에 선형적으로 스케일링됨을 보인다. 또한 최적 $\tau$가 토큰-파라미터 비율 D/N에 대한 정확한 power law를 따른다는 것을 보여주며, 이를 통해 대규모 훈련 전에 $\lambda_{opt}$를 정확하게 예측할 수 있다. 논문은 또한 최적 배치 크기 $B_{opt}$와 임계 배치 크기 $B_{crit}$에 대한 스케일링 법칙을 연구하며, $B_{opt}$와 $B_{crit}$는 모델 크기 N에 관계없이 D에 대한 power law로 스케일링됨을 발견했다. 마지막으로, 이러한 결과를 바탕으로 훈련 시간 및 계산 목표 하에서 Pareto-optimal N 및 D를 선택하는 방법을 분석했다.

시사점, 한계점

시사점:
최적 $\lambda$는 $B$, $D/N$에 따라 power law로 스케일링 되며, 이를 통해 대규모 훈련 전 $\lambda_{opt}$ 예측 가능.
$B_{opt}$와 $B_{crit}$는 모델 크기 N과 무관하게 데이터 크기 D에 대한 power law를 따름.
Pareto-optimal N과 D 선택에 대한 지침 제공.
한계점:
모든 실험은 Cerebras CS-3 시스템에서 수행되었으므로, 다른 하드웨어 환경에서의 일반화는 추가 연구 필요.
다른 하이퍼파라미터에 대한 스케일링 법칙 연구는 포함되지 않음.
👍