Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

Created by
  • Haebom
Category
Empty

저자

Kairong Luo, Haodong Wen, Shengding Hu, Zhenbo Sun, Zhiyuan Liu, Maosong Sun, Kaifeng Lyu, Wenguang Chen

개요

본 논문은 대규모 언어 모델의 사전 훈련 손실과 하이퍼파라미터(특히 학습률 스케줄) 간의 정량적 관계를 설명하는 경험적 법칙을 제시합니다. 이 법칙은 다중 거듭제곱 형태를 띠며, 학습률의 합을 기반으로 한 거듭제곱 법칙과 학습률 감소에 의한 손실 감소 효과를 고려한 추가 거듭제곱 법칙을 결합합니다. 다양한 모델 크기와 아키텍처에 대한 광범위한 검증을 통해, 몇 가지 학습률 스케줄에 적합화한 후에는 다양한 형태와 기간의 미지 스케줄에 대한 손실 곡선을 정확하게 예측할 수 있음을 보여줍니다. 또한, 예측된 최종 사전 훈련 손실을 학습률 스케줄에 걸쳐 최소화하여, 널리 사용되는 코사인 학습률 스케줄보다 성능이 우수한 스케줄을 찾을 수 있음을 보여줍니다. 이렇게 자동으로 발견된 스케줄은 최근 제안된 Warmup-Stable-Decay (WSD) 스케줄과 유사하지만, 약간 더 낮은 최종 손실을 달성합니다.

시사점, 한계점

시사점:
대규모 언어 모델의 사전 훈련 손실과 학습률 스케줄 간의 관계를 설명하는 경험적 법칙 제시.
제시된 법칙을 이용하여 새로운 학습률 스케줄의 손실 곡선을 정확하게 예측 가능.
기존 코사인 스케줄보다 성능이 우수한 새로운 학습률 스케줄 발견.
사전 훈련 효율성 향상을 위한 귀중한 통찰력 제공.
한계점:
제시된 경험적 법칙의 일반성 및 다양한 모델 아키텍처 및 데이터셋에 대한 적용 가능성에 대한 추가 연구 필요.
발견된 최적 학습률 스케줄이 모든 모델과 데이터셋에 최적으로 작용한다는 보장은 없음.
본 연구에서 사용된 모델과 데이터셋의 제한으로 인한 일반화의 어려움.
👍