본 논문은 대규모 언어 모델(LLM) 훈련의 높은 비용 문제를 해결하기 위해 새로운 스케일링 법칙인 Farseer를 제시합니다. Farseer는 모델 손실 표면 $L(N,D)$를 체계적으로 구성하여 기존의 스케일링 법칙(예: Chinchilla 법칙)보다 실험 데이터에 대한 적합성이 훨씬 뛰어납니다. 약 1,000개의 LLM을 다양한 규모와 구성으로 훈련하는 광범위한 실험을 통해 검증되었으며, Chinchilla 법칙에 비해 외삽 오류를 433% 감소시키는 등 우수한 외삽 성능을 보입니다. 모든 모델, 데이터, 결과 및 로그를 공개하여 추가 연구를 장려합니다.
시사점, 한계점
•
시사점:
◦
기존 스케일링 법칙보다 정확하고 견고하며 일반화 가능성이 높은 LLM 스케일링 법칙을 제공합니다.
◦
소규모 실험 결과를 대규모 성능 예측에 확신을 가지고 외삽할 수 있게 합니다.
◦
최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력을 제공합니다.
◦
다양한 규모와 구성의 약 1,000개의 LLM을 훈련한 방대한 실험 데이터셋을 공개합니다.
•
한계점:
◦
본 논문에서 제시된 Farseer의 성능은 사용된 특정 하드웨어 및 데이터셋에 의존적일 수 있습니다.
◦
Farseer의 일반화 가능성은 다양한 아키텍처와 훈련 데이터에 대한 추가적인 실험을 통해 더욱 검증될 필요가 있습니다.