यह शोधपत्र लंबी अनुमान टोकन लंबाई पर पारंपरिक सॉफ्टमैक्स ध्यान की संख्यात्मक अस्थिरता और प्रदर्शन में गिरावट को दूर करने के लिए एक नवीन ध्यान तंत्र का प्रस्ताव करता है। हम सॉफ्टमैक्स संक्रिया को एक अरैखिक धनात्मक रूपांतरण और $L_1$-नियमन चरणों में विघटित करते हैं, यह प्रदर्शित करते हुए कि मॉडल प्रदर्शन को बनाए रखने के लिए $l_1$-नियमन आवश्यक है। पहले चरण में, हम एक घातांकीय फलन के बजाय एक संख्यात्मक रूप से स्थिर सॉफ्टप्लस सक्रियण फलन और अपरिवर्तनीय एन्ट्रॉपी पर आधारित एक गतिशील स्केलिंग कारक का परिचय देते हैं, जिससे पारंपरिक सॉफ्टमैक्स ध्यान से बेहतर प्रदर्शन होता है। दूसरे चरण में, हम एक पुनर्भारन तंत्र प्रस्तुत करते हैं जो ध्यान वितरण को तीव्र करता है, महत्वपूर्ण भारों को बढ़ाता है और कमज़ोर भारों को कम करके प्रासंगिक टोकन पर अधिक प्रभावी ढंग से ध्यान केंद्रित करता है। इन दोनों दृष्टिकोणों के संयोजन से संख्यात्मक स्थिरता सुनिश्चित होती है और लंबी संदर्भ निष्कर्षण कार्यों और मानक डाउनस्ट्रीम बेंचमार्क पर उत्कृष्ट परिणाम प्राप्त होते हैं, जबकि प्रशिक्षण अवधि के 16 गुना पर भी लगभग स्थिर सत्यापन हानि बनी रहती है और लंबाई एक्सट्रपलेशन प्रदर्शन में नाटकीय रूप से सुधार होता है।