Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploiter les problèmes mathématiques en ligne de niveau Olympiade pour la formation des LLM et l'évaluation résistante à la contamination

Created by
  • Haebom

Auteur

Sadegh Mahdavi, Muchen Li, Kaiwen Liu, Christos Thrampoulidis, Leonid Sigal, Renjie Liao

Contour

Dans cet article, nous présentons une étude visant à améliorer la capacité de raisonnement mathématique des modèles de langage à grande échelle (MLL) en construisant le jeu de données AoPS-Instruct, composé de plus de 600 000 paires questions-réponses de haute qualité, à l'aide d'un pipeline automatisé issu du forum Art of Problem Solving (AoPS). Nous démontrons que l'optimisation des LLM avec le jeu de données AoPS-Instruct améliore leur capacité d'inférence sur divers benchmarks. De plus, nous développons un nouveau benchmark résistant à la contamination, LiveAoPSBench, basé sur les dernières données du forum AoPS pour évaluer les performances des LLM. Grâce à LiveAoPSBench, nous observons une dégradation des performances des LLM au fil du temps, suggérant que le succès sur les benchmarks existants pourrait être dû à l'exposition à des données de pré-entraînement. Cette étude présente une approche évolutive pour générer et maintenir des jeux de données à grande échelle et de haute qualité pour le raisonnement mathématique avancé, et fournit des informations précieuses sur les capacités et les limites des LLM dans ce domaine.

Takeaways, Limitations

Takeaways:
Création d'un ensemble de données de résolution de problèmes mathématiques à grande échelle et de haute qualité, AoPS-Instruct, à l'aide des données du forum AoPS.
Amélioration de la capacité de raisonnement mathématique confirmée par le perfectionnement du LLM à l'aide d'AoPS-Instruct.
Développement de LiveAoPSBench, un benchmark évolutif au fil du temps, et découverte de la dégradation des performances de LLM.
Une nouvelle perspective sur l’évaluation de la véritable capacité de raisonnement des LLM.
Présente une méthode de création et de maintenance d’ensembles de données évolutifs.
Limitations:
Il convient de prendre en compte les biais dans les données du forum AoPS.
LiveAoPSBench nécessite une maintenance et un entretien continus.
Des recherches supplémentaires sont nécessaires pour déterminer les causes du déclin de la capacité de raisonnement des LLM.
Il existe des limites à la généralisabilité en utilisant uniquement les données du forum AoPS.
👍