본 논문은 수학적 추론 영역에서 대규모 언어 모델(LLM)의 사전 훈련을 위한 수학적 데이터 선택 프레임워크인 MASS(MAthematical data Selection framework using the Skill graph)를 제안합니다. 기존의 일반적인 데이터 선택 방법과 달리, 수학의 고유한 특성과 추론 과정을 고려하여, 참조 데이터셋으로부터 수학적 기술과 그 상호 관계를 포착하는 기술 그래프를 구축합니다. 이 그래프를 이용하여 대상 데이터셋에 대한 품질 점수를 할당하고, 상위 순위의 하위 집합을 선택하여 LLM의 사전 훈련에 사용합니다. 실험 결과, MASS에 의해 선택된 하위 집합으로 훈련된 모델은 원본 데이터셋으로 훈련된 모델과 유사한 성능을 달성하면서 훈련 토큰 수를 50%70%까지 크게 줄이는 효율성을 보였습니다. 또한, 동일한 양의 토큰으로 훈련했을 때, MASS로 선택된 데이터로 훈련된 모델은 원본 데이터셋으로 훈련된 모델보다 3.3%5.9% 더 나은 성능을 보이는 효과성을 입증했습니다.