यह शोधपत्र पाठ्यपुस्तक-रीजनिंग (TextbookReasoning) शोधपत्र प्रस्तुत करके वैज्ञानिक तर्क के लिए बड़े पैमाने के ओपन-सोर्स डेटासेट की कमी को दूर करता है, जिसमें कॉलेज स्तर की विज्ञान की पाठ्यपुस्तकों से लिए गए 6,50,000 अनुमान प्रश्न शामिल हैं, और मेगासाइंस (MegaScience) शोधपत्र, जिसमें विभिन्न ओपन-सोर्स डेटासेट से एकीकृत 1.25 मिलियन उदाहरण शामिल हैं। मेगासाइंस को विभिन्न डेटा चयन पद्धतियों के पृथक्करण अध्ययनों के माध्यम से इष्टतम उपसमूहों की व्यवस्थित रूप से पहचान करके विकसित किया गया था। इसके अलावा, 15 मानकों को शामिल करने वाली एक व्यापक मूल्यांकन प्रणाली सटीक मूल्यांकन मानकों को सुनिश्चित करती है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित डेटासेट प्रदर्शन और प्रशिक्षण दक्षता के मामले में मौजूदा ओपन-सोर्स वैज्ञानिक डेटासेट से बेहतर प्रदर्शन करता है। मेगासाइंस पर प्रशिक्षित आधारभूत मॉडल—Llama3.1, Qwen2.5, और Qwen3—औसतन अपने संबंधित आधिकारिक निर्देश मॉडल से काफी बेहतर प्रदर्शन करते हैं। यह शोधपत्र डेटा क्लीनिंग पाइपलाइन, मूल्यांकन प्रणाली, डेटासेट और सात प्रशिक्षित मॉडलों का खुलासा करके वैज्ञानिक तर्क अनुसंधान की प्रगति में योगदान देता है।