Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Farseer: A Refined Scaling Law in Large Language Models

Created by
  • Haebom

저자

Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

개요

본 논문은 대규모 언어 모델(LLM) 훈련의 높은 비용 문제를 해결하기 위해 새로운 스케일링 법칙인 Farseer를 제시합니다. Farseer는 모델 손실 표면 $L(N,D)$를 체계적으로 구성하여 기존의 스케일링 법칙(예: Chinchilla 법칙)보다 실험 데이터에 대한 적합성이 훨씬 뛰어납니다. 약 1,000개의 LLM을 다양한 규모와 구성으로 훈련하는 광범위한 실험을 통해 검증되었으며, Chinchilla 법칙에 비해 외삽 오류를 433% 감소시키는 등 우수한 외삽 성능을 보입니다. 모든 모델, 데이터, 결과 및 로그를 공개하여 추가 연구를 장려합니다.

시사점, 한계점

시사점:
기존 스케일링 법칙보다 정확하고 견고하며 일반화 가능성이 높은 LLM 스케일링 법칙을 제공합니다.
소규모 실험 결과를 대규모 성능 예측에 확신을 가지고 외삽할 수 있게 합니다.
최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력을 제공합니다.
다양한 규모와 구성의 약 1,000개의 LLM을 훈련한 방대한 실험 데이터셋을 공개합니다.
한계점:
본 논문에서 제시된 Farseer의 성능은 사용된 특정 하드웨어 및 데이터셋에 의존적일 수 있습니다.
Farseer의 일반화 가능성은 다양한 아키텍처와 훈련 데이터에 대한 추가적인 실험을 통해 더욱 검증될 필요가 있습니다.
$L(N,D)$ 모델 손실 표면의 구성에 대한 자세한 설명이 부족할 수 있습니다.
👍