Cet article aborde le manque d'ensembles de données open source à grande échelle pour le raisonnement scientifique en présentant l'ensemble de données TextbookReasoning, qui contient 650 000 questions d'inférence extraites de manuels scientifiques de niveau universitaire, et l'ensemble de données MegaScience, qui contient 1,25 million d'instances intégrées à partir de divers ensembles de données open source. MegaScience a été développé en identifiant systématiquement les sous-ensembles optimaux grâce à des études d'ablation de diverses méthodologies de sélection de données. De plus, un système d'évaluation complet comprenant 15 benchmarks garantit des mesures d'évaluation précises. Les résultats expérimentaux démontrent que l'ensemble de données proposé surpasse les ensembles de données scientifiques open source existants en termes de performances et d'efficacité d'apprentissage. Les modèles de base entraînés sur MegaScience – Llama3.1, Qwen2.5 et Qwen3 – surpassent en moyenne significativement leurs modèles d'enseignement officiels correspondants. Cet article contribue à l'avancement de la recherche sur le raisonnement scientifique en présentant le pipeline de nettoyage des données, le système d'évaluation, l'ensemble de données et sept modèles entraînés.