यह शोधपत्र डेटा-संचालित आंशिक अवकल समीकरण (PDE) प्रतिस्थापन मॉडलों में ट्रांसफ़ॉर्मर न्यूरल नेटवर्क के उपयोग पर केंद्रित है, जहाँ अस्थिर सीमाओं और प्रारंभिक स्थितियों से प्रशिक्षण नमूने अनियमित हानियों और तीव्र ढालों की ओर ले जाते हैं, और भौतिक रूप से सूचनात्मक न्यूरल नेटवर्क (PINN) में, जहाँ कठोर यौगिक हानियाँ इन प्रभावों को बढ़ाती हैं। इस समस्या के समाधान के लिए, हम कौरकाउटास-बीटा, एक एडम-शैली अनुकूलक, प्रस्तावित करते हैं जो स्थिर द्वितीय-आघूर्ण छूट दर β₂ को एक परत-दर-परत गतिशील मान से प्रतिस्थापित करता है जो एक परिबद्ध "सनस्पाइक" अनुपात द्वारा निर्धारित होता है, जो वर्तमान एकत्रित ढाल मानक और पिछले मानकों के घातांकीय गतिमान औसत (EMA) का अनुपात है। स्पाइक्स β₂ को β₂_min की ओर नीचे धकेलते हैं, जबकि स्थिर चरण इसे β₂_max के पास बनाए रखते हैं। विकल्पों में लीकी-एएमएसग्रेड (क्षीणन), ट्रस्ट रीजन क्लिपिंग (max_ratio), अनुकूली फ़ाइन-ट्यूनिंग, और कई बायस सुधार मोड ("कोई नहीं," "बीटा2मैक्स," और "सटीक") शामिल हैं। हमने चार अलग-अलग सेटअपों पर कौरकाउटास-बीटा का परीक्षण किया: हीट2डी (ट्रांसफॉर्मर पीडीई के लिए एक सरोगेट मॉडल), हीट3डी (एक 3डी थर्मल कंडक्शन पिनएन), कंपन और दुर्लभ ट्रिगर बर्स्ट के साथ एक हल्का एमएलएक्स संश्लेषण कार्य, और 30एमबी एनविक8 डेटासेट का उपयोग करके एक कैरेक्टर-स्तरीय ट्रांसफॉर्मर, और दिखाया कि यह निश्चित β₂ एडम की तुलना में स्थिरता और अंतिम हानि में सुधार करता है। विशेष रूप से, छोटे-एनविक8 पर, यह एडम-0.95 की तुलना में लगभग 38% और एडम-0.999 की तुलना में लगभग 58% बिट्स-प्रति-कैरेक्टर कमी दर्शाता है। कौरकाउटास-बीटा एक ड्रॉप-इन विधि है जो एडम-शैली अभिसरण गारंटी को बनाए रखते हुए तीव्र ढालों के तहत मजबूती में सुधार करती है।