본 논문은 고정된 컴퓨팅 자원 하에서 대규모 언어 모델(LLM)의 미세 조정을 위한 스케일링 법칙을 제시합니다. 기존의 접근 방식은 훈련 데이터를 총 토큰 수로만 측정하지만, 본 논문에서는 예제의 수와 평균 토큰 길이(데이터셋 볼륨이라고 함)가 모델 성능에 결정적인 역할을 한다는 점을 명시적으로 고려합니다. BRICC 및 MMLU 데이터셋의 하위 집합을 사용한 실험을 통해 데이터 구성이 토큰 효율성에 상당한 영향을 미친다는 것을 밝혔으며, 이는 자원 제약 환경에서 실용적인 LLM 미세 조정을 위한 개선된 스케일링 법칙을 제시합니다.