इस पत्र में, हम बड़े पैमाने पर भाषा मॉडल (एलएलएम) पूर्व-प्रशिक्षण में डेटा गुणवत्ता, विशेष रूप से डेटा विविधता का एक मात्रात्मक माप प्रस्तुत करते हैं। पिछले एलएलएम पूर्व-प्रशिक्षण अध्ययनों ने मुख्य रूप से मॉडल और डेटासेट आकार विस्तार पर ध्यान केंद्रित किया है, लेकिन डेटा गुणवत्ता का महत्व स्पष्ट रूप से परिभाषित नहीं किया गया है। जवाब में, हम प्राकृतिक भाषा डेटा की विविधता और सार्वजनिक रूप से उपलब्ध पूर्व-प्रशिक्षण डेटासेट की विविधता को मापने के लिए 'विविधता गुणांक' नामक एक मीट्रिक प्रस्तावित करते हैं। GPT-2 और LLaMAv2 का उपयोग करके विभिन्न आकारों (51M से 7B मापदंडों तक) के 44 मॉडल (कुल मिलाकर) पर प्रयोगों के माध्यम से, हम दिखाते हैं कि प्रस्तावित विविधता गुणांक डाउनस्ट्रीम मॉडल मूल्यांकन प्रदर्शन के साथ सहसंबंधित है।