# Farseer: A Refined Scaling Law in Large Language Models

### 저자

Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

### 개요

본 논문은 대규모 언어 모델(LLM) 훈련의 높은 비용 문제를 해결하기 위해 새로운 스케일링 법칙인 Farseer를 제시합니다. Farseer는 모델 손실 표면  $L(N,D)$를 체계적으로 구성하여 기존의 스케일링 법칙(예: Chinchilla 법칙)보다 실험 데이터에 대한 적합성이 훨씬 뛰어납니다.  약 1,000개의 LLM을 다양한 규모와 구성으로 훈련하는 광범위한 실험을 통해 검증되었으며, Chinchilla 법칙에 비해 외삽 오류를 433% 감소시키는 등 우수한 외삽 성능을 보입니다.  모든 모델, 데이터, 결과 및 로그를 공개하여 추가 연구를 장려합니다.

### 시사점, 한계점

- **시사점:**

    - 기존 스케일링 법칙보다 정확하고 견고하며 일반화 가능성이 높은 LLM 스케일링 법칙을 제공합니다.

    - 소규모 실험 결과를 대규모 성능 예측에 확신을 가지고 외삽할 수 있게 합니다.

    - 최적의 컴퓨팅 자원 할당에 대한 새로운 통찰력을 제공합니다.

    - 다양한 규모와 구성의 약 1,000개의 LLM을 훈련한 방대한 실험 데이터셋을 공개합니다.

- **한계점:**

    - 본 논문에서 제시된 Farseer의 성능은 사용된 특정 하드웨어 및 데이터셋에 의존적일 수 있습니다.

    - Farseer의 일반화 가능성은 다양한 아키텍처와 훈련 데이터에 대한 추가적인 실험을 통해 더욱 검증될 필요가 있습니다.

    - $L(N,D)$ 모델 손실 표면의 구성에 대한 자세한 설명이 부족할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2506.10972)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
