본 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 하류 작업 성능을 정확하게 예측하여 효율적인 자원 할당을 가능하게 하는 새로운 프레임워크인 Clustering-On-Difficulty (COD)를 제안합니다. 기존 방법들의 부정확성과 신뢰성 부족 문제를 해결하기 위해, COD는 작업 난이도의 스케일링 특징을 기반으로 작업들을 클러스터링합니다. 이를 통해 비정상적인 스케일링 패턴이나 성능 발현 지연 현상을 보이는 작업들을 제외하고, 더 안정적이고 예측 가능한 하위 집합을 구성합니다. 성능 스케일링 법칙을 이용하여 클러스터별 성능을 예측하고, 이를 바탕으로 전체 평가 집합의 성능을 정확하게 추정하는 매핑 함수를 도출합니다. 700억 매개변수의 LLM에 적용한 결과, 8개 주요 LLM 벤치마크에서 평균 예측 오차 1.36%를 달성하여 LLM 사전 훈련의 자원 할당 및 훈련 모니터링에 대한 실행 가능한 통찰력을 제공합니다.