Sign In

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

Created by
  • Haebom
Category
Empty

저자

Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Yangshijie Xu, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 다양한 작업에서 인상적인 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조합니다. 광범위한 경험적 연구를 통해 모델 파라미터와 데이터 크기에 따른 최적 학습률의 거듭제곱 법칙 관계, 데이터 크기에 따른 최적 배치 크기의 스케일링 법칙 등 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했습니다. 고정된 모델과 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록한 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 시사합니다. 본 연구는 다양한 모델 스파스성, 훈련 데이터 분포, 모델 형태의 변화에도 상당한 견고성을 보이는 보편적이고 플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구를 제공합니다. 이 도구는 전수 조사를 통해 발견된 전역적으로 최적인 LLM 성능과 비교하여 테스트 세트에서 추정값이 불과 0.07% 차이가 납니다. 본 연구는 전문가 혼합 모델 및 밀집 트랜스포머와 같이 서로 다른 모델 형태와 구조를 통합하고 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구입니다. 약 100조 토큰을 사용하여 크기와 하이퍼파라미터가 다른 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용하는 등 방대한 계산 자원을 필요로 하는 전수 최적화 과정을 거쳤습니다. 재현성과 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 지정된 저장소(https://step-law.github.io/)를 통해 점진적으로 공개할 예정입니다.

시사점, 한계점

시사점:
LLM 하이퍼파라미터 최적화를 위한 보편적인 스케일링 법칙 발견 및 도구 제공.
다양한 모델 구조와 데이터 분포에 대한 최적 하이퍼파라미터 설정에 대한 일반화 가능성 제시.
전역 최적 성능에 매우 근접한 (0.07% 차이) 효율적인 하이퍼파라미터 최적화 방법 제시.
LLM 훈련에 대한 컴퓨팅 자원 소모량에 대한 실질적인 데이터 제공.
한계점:
엄청난 컴퓨팅 자원 소모 (100만 NVIDIA H800 GPU 시간).
특정 모델 아키텍처 및 데이터셋에 대한 일반화 가능성에 대한 추가 연구 필요.
공개된 저장소를 통한 데이터 공개의 지속적인 업데이트 및 관리 필요성.
👍