Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MASS : Sélection de données mathématiques via des graphiques de compétences pour la préformation de grands modèles linguistiques

Created by
  • Haebom

Auteur

Jiazheng Li, Lu Yu, Qing Cui, Zhiqiang Zhang, Jun Zhou, Yanfang Ye, Chuxu Zhang

Contour

Dans cet article, nous proposons un cadre de sélection de données mathématiques, MASS (MAthematical data selection framework using the skill graph), pour le pré-entraînement de modèles de langage à grande échelle (LLM) dans le domaine de l'inférence mathématique. Contrairement aux méthodes conventionnelles de sélection de données, nous construisons un graphe de compétences qui capture les compétences mathématiques et leurs interrelations en tenant compte des caractéristiques uniques des mathématiques et du processus d'inférence. À l'aide de ce graphe, nous attribuons des scores de qualité à l'ensemble de données cible et sélectionnons les sous-ensembles de données les mieux classés pour le pré-entraînement du LLM. Les résultats expérimentaux démontrent l'efficacité de MASS sur différentes tailles de modèles (1B et 7B) et sur différents ensembles de données de pré-entraînement (données web et données synthétiques). Les modèles entraînés avec des sous-ensembles sélectionnés par MASS obtiennent des performances similaires à celles des modèles entraînés avec l'ensemble de données d'origine, tout en réduisant significativement le nombre de jetons d'entraînement de 50 % et 70 %. De plus, lorsqu'ils sont formés avec le même nombre de jetons, les modèles formés avec des données sélectionnées par MASS surpassent les modèles formés avec l'ensemble de données d'origine de 3,3 % et 5,9 %, respectivement.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre de sélection de données, MASS, pour améliorer l'efficacité et l'efficience de la pré-formation LLM dans le domaine de l'inférence mathématique.
MASS permet des performances équivalentes ou supérieures tout en réduisant le nombre de jetons de formation jusqu'à 70 %.
Démontrer l’utilité des méthodes de sélection de données spécifiques à un domaine à l’aide de graphiques de description mathématique.
Limitations:
MASS est spécialisé dans le domaine du raisonnement mathématique, et sa généralisabilité à d'autres domaines nécessite des études plus approfondies.
ÉTant donné que la précision et l’exhaustivité du graphique technologique affectent directement les performances de MASS, des améliorations dans la méthode de construction du graphique technologique peuvent être nécessaires.
Les performances peuvent être affectées par la qualité du jeu de données de référence utilisé. Des expériences complémentaires sur différents jeux de données de référence sont nécessaires.
👍