[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models

Created by
  • Haebom

저자

Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 대규모 언어 모델(LLM) 훈련의 높은 비용 문제를 해결하기 위해, 확장성 법칙인 Farseer를 제시합니다. Farseer는 모델 손실 표면 L(N,D)를 체계적으로 구성하여 기존의 확장성 법칙(예: Chinchilla 법칙)보다 실험 데이터에 대한 정확도가 훨씬 높습니다. 약 1,000개의 다양한 규모와 구성의 LLM을 훈련하는 광범위한 실험을 통해 검증되었으며, Chinchilla 법칙에 비해 외삽 오차를 433% 감소시키는 우수한 외삽 능력을 보입니다. 소규모 실험 결과를 대규모 성능 예측에 자신 있게 외삽할 수 있도록 하며, 최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력을 제공합니다. 모든 모델, 데이터, 결과 및 로그를 공개적으로 공유합니다.

시사점, 한계점

시사점:
기존 확장성 법칙보다 정확도가 높은 새로운 확장성 법칙 Farseer 제시
소규모 실험 결과를 대규모 성능 예측에 활용 가능
최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력 제공
모델, 데이터, 결과 및 로그의 공개를 통한 연구 활성화
한계점:
Farseer의 일반화 성능에 대한 추가적인 검증 필요
다양한 아키텍처 및 훈련 방법에 대한 Farseer의 적용성 평가 필요
실험에 사용된 컴퓨팅 자원의 규모가 매우 크다는 점 (3백만 NVIDIA H100 GPU hours 소모)
👍