Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MegaScience : Repousser les limites des ensembles de données post-formation pour le raisonnement scientifique

Created by
  • Haebom

Auteur

Fan de Run-Ze, Zengzhi Wang, Pengfei Liu

Contour

Cet article aborde le manque d'ensembles de données open source à grande échelle pour le raisonnement scientifique en présentant l'ensemble de données TextbookReasoning, qui contient 650 000 questions d'inférence extraites de manuels scientifiques de niveau universitaire, et l'ensemble de données MegaScience, qui contient 1,25 million d'instances intégrées à partir de divers ensembles de données open source. MegaScience a été développé en identifiant systématiquement les sous-ensembles optimaux grâce à des études d'ablation de diverses méthodologies de sélection de données. De plus, un système d'évaluation complet comprenant 15 benchmarks garantit des mesures d'évaluation précises. Les résultats expérimentaux démontrent que l'ensemble de données proposé surpasse les ensembles de données scientifiques open source existants en termes de performances et d'efficacité d'apprentissage. Les modèles de base entraînés sur MegaScience – Llama3.1, Qwen2.5 et Qwen3 – surpassent en moyenne significativement leurs modèles d'enseignement officiels correspondants. Cet article contribue à l'avancement de la recherche sur le raisonnement scientifique en présentant le pipeline de nettoyage des données, le système d'évaluation, l'ensemble de données et sept modèles entraînés.

Takeaways, Limitations

Takeaways:
Contribuez à l'avancement de la recherche sur l'IA de raisonnement scientifique en fournissant TextbookReasoning et MegaScience, des ensembles de données de raisonnement scientifique à grande échelle et de haute qualité.
Présentation d'une stratégie optimale de composition d'ensembles de données grâce à une analyse comparative de diverses méthodologies de sélection de données.
Un système d’évaluation complet permet de mesurer et de comparer avec précision les performances des modèles d’inférence scientifique.
Les modèles formés sur MegaScience surpassent les modèles existants.
Démontre l’évolutivité vers des modèles à grande échelle.
Ensembles de données open source et modèles formés pour garantir le partage et la reproductibilité de la recherche.
Limitations:
Un examen plus approfondi de l'équilibre et de la diversité de l'ensemble de données est nécessaire. Il existe un risque de biais en faveur de certains champs ou types de questions.
Une vérification supplémentaire de la qualité et de la fiabilité des ensembles de données utilisés pour construire MegaScience est nécessaire.
La portée du système d’évaluation doit être encore élargie pour englober un éventail plus large de types de raisonnement scientifique.
Il est nécessaire de mettre à jour en permanence l’ensemble de données et d’élaborer un plan de gestion.
Manque de support pour plusieurs langues.
👍