Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

Created by
  • Haebom
Category
Empty

저자

Houyi Li, Wenzhen Zheng, Jingcheng Hu, Qiufeng Wang, Hanshan Zhang, Zili Wang, Shijie Xuyang, Yuantao Fan, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 다양한 작업에서 인상적인 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조한다. 광범위한 실험적 연구를 통해 모델 파라미터와 데이터 크기에 따라 최적 학습률이 거듭제곱 법칙 관계를 따르고, 최적 배치 크기는 주로 데이터 크기에 따라 비례하는 보편적인 스케일링 법칙을 발견했다. 고정된 모델 및 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 의미한다. 본 연구는 커뮤니티를 위해 플러그 앤 플레이 방식의 보편적인 최적 하이퍼파라미터 도구를 제공하며, 이 도구는 완전 탐색을 통해 찾은 전역적으로 최적인 LLM 성능과 단 0.09% 차이를 보인다. 이러한 법칙은 모델의 희소성, 훈련 데이터 분포, 모델 구조의 변화에 걸쳐 놀라운 강건성을 보인다. 본 연구는 믹스처-오브-전문가 모델 및 밀집 트랜스포머와 같은 서로 다른 모델 형태와 구조를 통합하고, 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구이다. 약 100조 토큰을 사용하여 크기와 하이퍼파라미터가 다양한 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용하는 등 방대한 계산 자원을 필요로 했다. 재현성 및 추가 연구를 위해 손실 측정값과 모델 체크포인트를 지정된 저장소(https://step-law.github.io/)를 통해 순차적으로 공개할 예정이다.

시사점, 한계점

시사점:
LLM의 최적 하이퍼파라미터를 위한 보편적인 스케일링 법칙을 제시하여, 효율적인 하이퍼파라미터 탐색 및 최적화를 가능하게 함.
다양한 모델 구조와 데이터 분포에 걸쳐 강건한 성능을 보이는 최적 하이퍼파라미터 도구를 제공함.
LLM 훈련의 효율성을 높이고, 개발 시간 및 비용을 절감하는 데 기여함.
한계점:
방대한 계산 자원을 필요로 하여, 모든 연구자가 접근하기 어려울 수 있음.
제시된 스케일링 법칙이 모든 LLM 아키텍처와 데이터셋에 적용 가능한지에 대한 추가적인 연구가 필요함.
최적 하이퍼파라미터 플래토의 존재에 대한 이론적인 설명이 부족함.
👍