इस पत्र में, हम बड़े पैमाने पर भाषा मॉडल (LLM) अनुमान के प्रदर्शन में सुधार और पोर्टेबिलिटी सुनिश्चित करने के लिए एक नया दृष्टिकोण प्रस्तुत करते हैं। पारंपरिक एकल-प्लेटफ़ॉर्म निर्भरता, विक्रेता लॉक-इन और नए AI हार्डवेयर प्रवेश अवरोधों के कारण खराब पोर्टेबिलिटी की समस्याओं को दूर करने के लिए, हम एक ऐसी विधि प्रस्तावित करते हैं जो जस्ट-इन-टाइम (JIT) संकलन को व्यापक कर्नेल पैरामीटर ऑटो-ट्यूनिंग के साथ जोड़ती है। प्रदर्शन-महत्वपूर्ण LLM कर्नेल पर ध्यान केंद्रित करते हुए, हम दर्शाते हैं कि हमारी विधि 15 गुना अधिक कर्नेल पैरामीटर कॉन्फ़िगरेशन का अन्वेषण करती है, कई आयामों में उल्लेखनीय रूप से अधिक विविध कोड उत्पन्न करती है, और विक्रेता-अनुकूलित कार्यान्वयनों की तुलना में प्रदर्शन में 230% तक सुधार करती है, जबकि कर्नेल कोड का आकार 70 गुना कम करती है और मैन्युअल कोड अनुकूलन को समाप्त करती है। हमारे परिणाम इस बात पर प्रकाश डालते हैं कि GPU विक्रेताओं के बीच मॉडल पोर्टेबिलिटी में सुधार के लिए ऑटो-ट्यूनिंग एक आशाजनक दृष्टिकोण है।