본 논문은 다양한 작업에서 인상적인 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조합니다. 광범위한 경험적 연구를 통해 모델 파라미터와 데이터 크기에 따른 최적 학습률의 거듭제곱 법칙 관계, 데이터 크기에 따른 최적 배치 크기의 스케일링 법칙 등 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했습니다. 고정된 모델과 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록한 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 시사합니다. 본 연구는 다양한 모델 스파스성, 훈련 데이터 분포, 모델 형태의 변화에도 상당한 견고성을 보이는 보편적이고 플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구를 제공합니다. 이 도구는 전수 조사를 통해 발견된 전역적으로 최적인 LLM 성능과 비교하여 테스트 세트에서 추정값이 불과 0.07% 차이가 납니다. 본 연구는 전문가 혼합 모델 및 밀집 트랜스포머와 같이 서로 다른 모델 형태와 구조를 통합하고 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구입니다. 약 100조 토큰을 사용하여 크기와 하이퍼파라미터가 다른 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용하는 등 방대한 계산 자원을 필요로 하는 전수 최적화 과정을 거쳤습니다. 재현성과 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 지정된 저장소(https://step-law.github.io/)를 통해 점진적으로 공개할 예정입니다.
시사점, 한계점
•
시사점:
◦
LLM 하이퍼파라미터 최적화를 위한 보편적인 스케일링 법칙 발견 및 도구 제공.
◦
다양한 모델 구조와 데이터 분포에 대한 최적 하이퍼파라미터 설정에 대한 일반화 가능성 제시.
◦
전역 최적 성능에 매우 근접한 (0.07% 차이) 효율적인 하이퍼파라미터 최적화 방법 제시.