यह शोधपत्र तथ्यात्मक सुदृढ़ता स्कोर (FRS) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडलों (LLM) में तथ्यात्मक ज्ञान की सुदृढ़ता का आकलन करने के लिए एक नवीन मीट्रिक है। जबकि मौजूदा मूल्यांकन विधियाँ मुख्यतः प्रदर्शन-आधारित मीट्रिक्स और त्वरित परिवर्तनों के बाहरी प्रभाव पर केंद्रित हैं, यह शोधपत्र टोकन वितरण एन्ट्रॉपी और तापमान स्केलिंग के प्रति संवेदनशीलता का विश्लेषण करके निर्माण प्रक्रिया के दौरान ही तथ्यात्मक सुदृढ़ता को मापने के लिए एक सैद्धांतिक दृष्टिकोण प्रस्तुत करता है। पाँच LLM और तीन बंद-अंत प्रश्न-उत्तर डेटासेट (SQuAD, TriviaQA, और HotpotQA) पर किए गए प्रयोगों से पता चलता है कि तथ्यात्मक सुदृढ़ता मॉडल के आकार के साथ महत्वपूर्ण रूप से भिन्न होती है (छोटे मॉडलों के लिए 0.76 और बड़े मॉडलों के लिए 0.93), और अनिश्चितता बढ़ने पर सटीकता लगभग 60% कम हो जाती है। यह विश्लेषण तथ्यात्मक सटीकता पर एन्ट्रॉपी और तापमान स्केलिंग के प्रभाव को प्रदर्शित करता है, और अधिक मज़बूत ज्ञान धारण और पुनर्प्राप्ति क्षमताओं वाले मॉडलों के विकास की नींव रखता है।