यह अध्ययन प्रयोगात्मक रूप से TinyStories डेटासेट का उपयोग करके छोटे पैमाने के भाषा मॉडल (SLM) के प्रदर्शन पर प्रशिक्षण डेटा की गुणवत्ता और मात्रा के सापेक्ष प्रभाव का विश्लेषण करता है। हमने डेटासेट के आकार (मूल का 25% और 50%) और अतिरेक दर (25%, 50%, 75% और 100%) को अलग-अलग करके प्रयोग किए। सत्यापन हानि, सटीकता और व्याकुलता मैट्रिक्स के माध्यम से मॉडल के प्रदर्शन के मूल्यांकन के परिणाम बताते हैं कि प्रशिक्षण डेटा की गुणवत्ता SLM के समग्र प्रदर्शन में अधिक महत्वपूर्ण भूमिका निभाती है, विशेष रूप से इस प्रयोग के पैमाने पर विचार करते हुए। जबकि न्यूनतम अतिरेक ने मॉडल की सटीकता में थोड़ा सुधार किया (25% अतिरेक पर सटीकता में 0.87% की वृद्धि), अत्यधिक अतिरेक के परिणामस्वरूप प्रदर्शन में कमी आई (100% अतिरेक पर सटीकता में 40% की कमी)।