Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

Created by
  • Haebom
Category
Empty

저자

Houyi Li, Wenzheng Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Shijie Xuyang, Yuantao Fan, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 다양한 작업에서 인상적인 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 주의 깊은 하이퍼파라미터 최적화가 필수적임을 강조한다. 광범위한 실험 연구를 통해 모델 파라미터와 데이터 크기에 따른 최적 학습률의 거듭제곱 법칙 관계, 데이터 크기에 따른 최적 배치 크기의 스케일링 법칙 등 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했다. 고정된 모델 및 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 의미한다. 본 연구는 커뮤니티에 사용 가능한 보편적이고 플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구를 제공한다. 이 도구는 전수 조사를 통해 발견된 전역적으로 최적인 LLM 성능과 테스트 세트에서 추정된 값이 불과 0.09% 차이가 난다. 본 연구에서 제시된 법칙은 모델의 희소성, 훈련 데이터 분포, 모델 형태의 변화에 대해 놀라울 정도로 강력한 견고성을 보여준다. 본 연구는 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립하고, 전문가 혼합 모델 및 밀집 트랜스포머와 같은 서로 다른 모델 형태와 구조를 통합한 최초의 연구이다. 약 100조 토큰을 사용하여 크기와 하이퍼파라미터가 다양한 3,700개의 LLM을 처음부터 훈련하는 데 거의 100만 NVIDIA H800 GPU 시간을 사용하는 등 방대한 계산 자원을 필요로 하는 전수 최적화 과정을 거쳤다. 재현성 및 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 지정된 저장소(https://step-law.github.io/)를 통해 점진적으로 공개할 예정이다.

시사점, 한계점

시사점:
LLM 하이퍼파라미터 최적화를 위한 보편적인 스케일링 법칙을 제시하여 효율적인 LLM 훈련을 가능하게 함.
플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구 제공으로 연구 및 개발의 편의성 증대.
다양한 모델 구조와 데이터 분포에 대한 견고성을 확인하여 LLM 연구의 일반화 가능성 확장.
전수 최적화를 통한 높은 정확도의 최적 하이퍼파라미터 도출.
한계점:
막대한 계산 자원(약 100만 NVIDIA H800 GPU 시간) 소모.
특정 모델 아키텍처와 데이터셋에 대한 결과의 일반화 가능성에 대한 추가 검증 필요.
도구의 실제 적용 및 성능 평가에 대한 추가 연구 필요.
최적 하이퍼파라미터 플래토의 존재가 모든 상황에서 항상 성립하는지에 대한 추가 연구가 필요.
👍