본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 손실-대-손실 스케일링 법칙(loss-to-loss scaling laws)의 요인을 조사합니다. 기존 스케일링 법칙이 모델 크기, 토큰 수, 연산량의 균형에 초점을 맞춘 반면, 본 논문은 사전 훈련 데이터셋과 하위 작업 간 손실의 관계에 주목합니다. 실험 결과, 사전 훈련 데이터와 토크나이저가 스케일링 추세를 결정하는 가장 중요한 요소임을 밝혔습니다. 모델 크기, 최적화 하이퍼파라미터, 심지어 Llama와 같은 Transformer 기반 모델과 Mamba와 같은 상태 공간 모델 간의 상당한 아키텍처 차이조차도 제한적인 영향만 미치는 것으로 나타났습니다. 따라서 최적의 하위 작업 성능을 위해서는 사전 훈련 데이터셋을 신중하게 선택해야 하며, 아키텍처 및 기타 설정은 훈련 효율성을 위해 자유롭게 최적화할 수 있습니다.