Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

Created by
  • Haebom

저자

Houyi Li, Wenzhen Zheng, Qiufeng Wang, Hanshan Zhang, Zili Wang, Shijie Xuyang, Yuantao Fan, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 다양한 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)의 효과적인 배포를 위해서는 신중한 하이퍼파라미터 최적화가 필수적임을 강조한다. 광범위한 경험적 연구를 통해 모델 파라미터와 데이터 크기에 따른 최적 학습률의 거듭제곱 법칙 관계, 데이터 크기에 따른 최적 배치 크기의 비례 관계 등 하이퍼파라미터를 지배하는 보편적인 스케일링 법칙을 발견했다. 고정된 모델과 데이터 크기 조건 하에서 하이퍼파라미터에 대한 볼록 최적화 지형을 밝혀냈으며, 이는 최적 하이퍼파라미터 플래토의 존재를 의미한다. 본 연구는 플러그 앤 플레이 방식의 보편적인 최적 하이퍼파라미터 도구를 제공하며, 이 도구로 추정된 테스트 세트 값은 완전 탐색을 통해 찾은 전역 최적 LLM 성능과 불과 0.09% 차이를 보인다. 이 법칙은 모델 스파스성, 훈련 데이터 분포, 모델 형태의 변화에 걸쳐 놀라운 견고성을 보여준다. 본 연구는 믹스처-오브-익스퍼츠 모델과 밀집 트랜스포머와 같은 다양한 모델 형태와 구조를 통합하고, 다양한 데이터 분포에 걸쳐 최적 하이퍼파라미터 스케일링 법칙을 확립한 최초의 연구이다. 약 100조 토큰을 소모하여 다양한 크기와 하이퍼파라미터를 가진 3,700개의 LLM을 처음부터 훈련하는 데 약 100만 NVIDIA H800 GPU 시간을 사용하는 등 상당한 컴퓨팅 자원을 필요로 하는 광범위한 최적화 과정을 거쳤다. 재현성과 추가 연구를 위해 모든 손실 측정값과 모델 체크포인트를 https://step-law.github.io/ 저장소를 통해 순차적으로 공개할 예정이다.

시사점, 한계점

시사점:
LLM의 하이퍼파라미터 최적화를 위한 보편적인 스케일링 법칙을 제시하여, 효율적인 LLM 훈련을 가능하게 한다.
플러그 앤 플레이 방식의 최적 하이퍼파라미터 도구를 제공하여, 연구자들의 시간과 자원을 절약한다.
다양한 모델 구조와 데이터 분포에 대한 견고한 성능을 보이는 최적화 기법을 제시한다.
한계점:
막대한 컴퓨팅 자원을 필요로 하는 연구로, 접근성에 제한이 있을 수 있다.
현재 공개된 저장소의 내용이 불완전하여, 재현성에 대한 검증이 추가적으로 필요할 수 있다.
본 연구에서 제시된 스케일링 법칙의 일반화 가능성에 대한 추가적인 연구가 필요하다.
👍