본 논문은 수학적 추론 영역에서 대규모 언어 모델(LLM)의 사전 훈련을 위한 수학적 데이터 선택 프레임워크인 MASS(MAthematical data Selection framework using the Skill graph)를 제안합니다. 기존의 일반적인 데이터 선택 방법과 달리, 수학의 고유한 특성과 추론 과정을 고려하여 수학적 기술과 그 상호 관계를 포착하는 기술 그래프를 구성합니다. 이 그래프를 이용하여 대상 데이터셋에 품질 점수를 부여하고, 상위 순위의 데이터 부분집합을 선택하여 LLM을 사전 훈련합니다. 실험 결과, MASS는 다양한 모델 크기(1B 및 7B)와 사전 훈련 데이터셋(웹 데이터 및 합성 데이터)에서 효율성과 효과성을 입증합니다. MASS로 선택된 부분집합으로 훈련된 모델은 원래 데이터셋으로 훈련된 모델과 유사한 성능을 달성하면서 훈련 토큰 수를 50%70%까지 크게 줄입니다. 또한, 동일한 양의 토큰으로 훈련했을 때, MASS로 선택된 데이터로 훈련된 모델은 원래 데이터셋으로 훈련된 모델보다 3.3%5.9% 더 나은 성능을 보입니다.