Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training

Created by
  • Haebom

저자

Shane Bergsma, Nolan Dey, Gurpreet Gosal, Gavia Gray, Daria Soboleva, Joel Hestness

개요

본 논문은 대규모 언어 모델(LLM)의 효율적인 사전 훈련을 위한 최적의 하이퍼파라미터(HP) 스케일링 법칙을 연구합니다. 특히 학습률(η)과 가중치 감쇠(λ)에 초점을 맞춰, 모델 크기(N), 데이터셋 크기(D), 배치 크기(B)가 증가함에 따라 HP를 어떻게 조정해야 하는지에 대한 공식을 제시합니다. 기존 연구에서 제시된 AdamW 시간척도(B/(ηλD))가 일정하게 유지되어야 한다는 주장을 검증하고, 고정된 N, D에서 최적 λ가 B에 따라 선형적으로 증가함을 확인합니다. 하지만 N, D가 증가할 때 최적 시간척도는 토큰-파라미터 비율(D/N)에 대한 정확한 거듭제곱 법칙을 따르며, 이를 통해 대규모 훈련 전에 최적 λ를 정확하게 예측하는 방법을 제공합니다. 또한 최적 배치 크기(Bopt)와 임계 배치 크기(Bcrit)에 대한 스케일링 법칙을 연구하며, 기존 연구와 달리 Bopt와 Bcrit 모두 모델 크기 N과 무관하게 D에 대한 거듭제곱 법칙을 따름을 발견합니다. 마지막으로, 이러한 연구 결과가 훈련 시간과 계산 목표를 동시에 고려하여 Pareto-optimal N과 D를 선택하는 데 어떻게 활용될 수 있는지 분석합니다.

시사점, 한계점

시사점:
대규모 언어 모델 훈련을 위한 최적의 학습률과 가중치 감쇠를 예측하는 정확한 방법을 제공합니다.
최적 및 임계 배치 크기에 대한 새로운 스케일링 법칙을 제시합니다.
훈련 시간과 계산 자원을 고려한 Pareto-optimal 모델 크기와 데이터셋 크기를 선택하는 데 도움을 줍니다.
한계점:
본 연구의 결과는 특정 아키텍처와 데이터셋에 국한될 수 있습니다. 다양한 모델과 데이터셋에 대한 추가 연구가 필요합니다.
실제 훈련 환경에서의 성능을 완벽하게 반영하지 못할 수 있습니다. 실제 적용에 대한 추가적인 검증이 필요합니다.
Pareto-optimal N과 D 선택에 대한 분석은 더 자세한 실험적 검증이 필요합니다.
👍