यह पत्र ENSI का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) पर सुरक्षित अनुमान के लिए एक नवीन गैर-संवादात्मक ढाँचा है। क्रिप्टोग्राफ़िक प्रोटोकॉल और LLM आर्किटेक्चर के सह-डिज़ाइन सिद्धांत पर आधारित, ENSI एन्क्रिप्टेड मैट्रिक्स गुणन की कम्प्यूटेशनल जटिलता को उल्लेखनीय रूप से कम करने के लिए CKKS योजना को एक हल्के LLM संस्करण, BitNet के साथ एकीकृत करता है। इसके अलावा, होमोमॉर्फिक एन्क्रिप्शन (HE) के तहत सॉफ्टमैक्स के कम्प्यूटेशनल बोझ को कम करने के लिए, हम एक वैकल्पिक दृष्टिकोण प्रस्तावित करते हैं जो सिग्मॉइड अटेंशन मैकेनिज्म को HE के साथ एकीकृत करके पुनर्प्रशिक्षण की आवश्यकता को समाप्त करता है। इसके अलावा, हम बूटस्ट्रैपिंग ऑपरेशन को RMSNorm प्रक्रिया में एकीकृत करते हैं, जिससे सिफरटेक्स्ट को कुशलतापूर्वक रिफ्रेश किया जा सकता है और साथ ही महंगी बूटस्ट्रैपिंग कॉल की आवृत्ति को भी उल्लेखनीय रूप से कम किया जा सकता है। प्रायोगिक परिणाम दर्शाते हैं कि ENSI, अत्याधुनिक विधियों की तुलना में CPU पर मैट्रिक्स गुणन गति को लगभग 8 गुना और सॉफ्टमैक्स अनुमान गति को 2.6 गुना बेहतर बनाता है, जबकि बूटस्ट्रैपिंग अनुपात को 1% तक कम करता है।