本論文は、科学的推論のための大規模なオープンソースデータセットの欠如を解決するために、大学レベルの科学教科書から抽出された650,000の推論質問を含むTextbookReasoningデータセットと、さまざまなオープンソースデータセットを統合した125万のインスタンスを含むMegaScienceデータセットを提示します。 MegaScienceは、様々なデータ選択方法論のための体系的なablation studyを介して最適なサブセットを識別することによって開発されました。さらに、15のベンチマークを組み合わせた包括的な評価システムを構築し、正確な評価指標を確保します。実験の結果、提示されたデータセットは従来のオープンソース科学データセットよりも優れた性能とトレーニング効率を示し、MegaScienceで訓練されたLlama3.1、Qwen2.5、Qwen3シリーズの基本モデルは、対応する公式のinstructionモデルよりも平均性能がはるかに優れています。本論文は、データ精製パイプライン、評価システム、データセット、および7つの訓練されたモデルを公開し、科学的推論研究の発展に貢献します。