यह शोधपत्र 15 बड़े पैमाने के भाषा मॉडल (एलएलएम) का विश्लेषण करता है और पाता है कि चैट के लिए फाइन-ट्यून्ड एलएलएम की अधिकतम सॉफ्टमैक्स संभावना (एमएसपी) बहुविकल्पीय प्रश्नोत्तर में लगातार गलत कैलिब्रेट की जाती है। हालाँकि, एमएसपी में अभी भी उपयोगी अनिश्चितता की जानकारी हो सकती है। हम यह परिकल्पना करते हैं कि गलत उत्तर सही उत्तरों की तुलना में छोटे एमएसपी से जुड़े होंगे, और कठोर सांख्यिकीय परीक्षण दर्शाता है कि यह परिकल्पना उन मॉडलों के लिए सही है जो बुनियादी प्रश्नोत्तर कार्य पर अच्छा प्रदर्शन करते हैं। हमें प्रश्नोत्तर सटीकता और एमएसपी सटीकता पूर्वानुमानों के बीच एक मजबूत दिशात्मक सहसंबंध भी मिलता है, लेकिन प्रश्नोत्तर सटीकता और अंशांकन त्रुटियों के बीच कोई सहसंबंध नहीं मिलता है। यह बताता है कि वर्तमान फाइन-ट्यून्डिंग प्रतिमान के भीतर, एलएलएम प्रदर्शन में सुधार से सटीकता पूर्वानुमानों में सुधार होने की संभावना होगी, न कि अंशांकन में।