본 논문은 대규모 언어 모델(LLM) 훈련의 높은 비용 문제를 해결하기 위해, 확장성 법칙인 Farseer를 제시합니다. Farseer는 모델 손실 표면 L(N,D)를 체계적으로 구성하여 기존의 확장성 법칙(예: Chinchilla 법칙)보다 실험 데이터에 대한 정확도가 훨씬 높습니다. 약 1,000개의 다양한 규모와 구성의 LLM을 훈련하는 광범위한 실험을 통해 검증되었으며, Chinchilla 법칙에 비해 외삽 오차를 433% 감소시키는 우수한 외삽 능력을 보입니다. 소규모 실험 결과를 대규모 성능 예측에 자신 있게 외삽할 수 있도록 하며, 최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력을 제공합니다. 모든 모델, 데이터, 결과 및 로그를 공개적으로 공유합니다.
시사점, 한계점
•
시사점:
◦
기존 확장성 법칙보다 정확도가 높은 새로운 확장성 법칙 Farseer 제시
◦
소규모 실험 결과를 대규모 성능 예측에 활용 가능
◦
최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력 제공
◦
모델, 데이터, 결과 및 로그의 공개를 통한 연구 활성화
•
한계점:
◦
Farseer의 일반화 성능에 대한 추가적인 검증 필요
◦
다양한 아키텍처 및 훈련 방법에 대한 Farseer의 적용성 평가 필요
◦
실험에 사용된 컴퓨팅 자원의 규모가 매우 크다는 점 (3백만 NVIDIA H100 GPU hours 소모)