본 논문은 대규모 언어 모델의 사전 훈련 손실과 하이퍼파라미터(특히 학습률 스케줄) 간의 정량적 관계를 설명하는 경험적 법칙을 제시합니다. 이 법칙은 다중 거듭제곱 형태를 띠며, 학습률의 합을 기반으로 한 거듭제곱 법칙과 학습률 감소에 의한 손실 감소 효과를 고려한 추가 거듭제곱 법칙을 결합합니다. 다양한 모델 크기와 아키텍처에 대한 광범위한 검증을 통해, 몇 가지 학습률 스케줄에 적합화한 후에는 다양한 형태와 기간의 미지 스케줄에 대한 손실 곡선을 정확하게 예측할 수 있음을 보여줍니다. 또한, 예측된 최종 사전 훈련 손실을 학습률 스케줄에 걸쳐 최소화하여, 널리 사용되는 코사인 학습률 스케줄보다 성능이 우수한 스케줄을 찾을 수 있음을 보여줍니다. 이렇게 자동으로 발견된 스케줄은 최근 제안된 Warmup-Stable-Decay (WSD) 스케줄과 유사하지만, 약간 더 낮은 최종 손실을 달성합니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 사전 훈련 손실과 학습률 스케줄 간의 관계를 설명하는 경험적 법칙 제시.
◦
제시된 법칙을 이용하여 새로운 학습률 스케줄의 손실 곡선을 정확하게 예측 가능.
◦
기존 코사인 스케줄보다 성능이 우수한 새로운 학습률 스케줄 발견.
◦
사전 훈련 효율성 향상을 위한 귀중한 통찰력 제공.
•
한계점:
◦
제시된 경험적 법칙의 일반성 및 다양한 모델 아키텍처 및 데이터셋에 대한 적용 가능성에 대한 추가 연구 필요.