यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) में प्रशिक्षण डेटा के स्मरण की परिघटना से जुड़े एक मूलभूत प्रश्न पर विचार करता है: हम प्रशिक्षण डेटा को याद रखने की कठिनाई को कैसे चिह्नित कर सकते हैं? OLMo परिवार के खुले मॉडलों का उपयोग करते हुए प्रयोगों के माध्यम से, हम एन्ट्रॉपी-स्मरण नियम का प्रस्ताव करते हैं, जो बताता है कि डेटा एन्ट्रॉपी, स्मरण स्कोर के साथ रैखिक रूप से सहसंबद्ध है। इसके अलावा, अत्यधिक यादृच्छिक स्ट्रिंग्स (अस्पष्ट) को याद रखने के एक केस अध्ययन के माध्यम से, हम देखते हैं कि ये स्ट्रिंग्स, अपनी स्पष्ट यादृच्छिकता के बावजूद, व्यापक प्रशिक्षण कोष की तुलना में अप्रत्याशित रूप से कम अनुभवजन्य एन्ट्रॉपी प्रदर्शित करती हैं। एन्ट्रॉपी-स्मरण नियम की खोज के लिए उपयोग की गई उसी रणनीति को अपनाते हुए, हम डेटासेट इंफ़रेंस (DI) प्राप्त करते हैं, जो प्रशिक्षण और परीक्षण डेटा में अंतर करने का एक सरल लेकिन प्रभावी तरीका है।