Dans cet article, nous proposons un cadre de sélection de données mathématiques, MASS (MAthematical data selection framework using the skill graph), pour le pré-entraînement de modèles de langage à grande échelle (LLM) dans le domaine de l'inférence mathématique. Contrairement aux méthodes conventionnelles de sélection de données, nous construisons un graphe de compétences qui capture les compétences mathématiques et leurs interrelations en tenant compte des caractéristiques uniques des mathématiques et du processus d'inférence. À l'aide de ce graphe, nous attribuons des scores de qualité à l'ensemble de données cible et sélectionnons les sous-ensembles de données les mieux classés pour le pré-entraînement du LLM. Les résultats expérimentaux démontrent l'efficacité de MASS sur différentes tailles de modèles (1B et 7B) et sur différents ensembles de données de pré-entraînement (données web et données synthétiques). Les modèles entraînés avec des sous-ensembles sélectionnés par MASS obtiennent des performances similaires à celles des modèles entraînés avec l'ensemble de données d'origine, tout en réduisant significativement le nombre de jetons d'entraînement de 50 % et 70 %. De plus, lorsqu'ils sont formés avec le même nombre de jetons, les modèles formés avec des données sélectionnées par MASS surpassent les modèles formés avec l'ensemble de données d'origine de 3,3 % et 5,9 %, respectivement.