यह शोधपत्र प्रॉम्प्टकीपर नामक एक सुरक्षा तंत्र का प्रस्ताव करता है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के आउटपुट को निर्देशित करने वाले सिस्टम प्रॉम्प्ट से जुड़ी सुरक्षा चिंताओं को दूर करता है। सिस्टम प्रॉम्प्ट में अक्सर व्यावसायिक तर्क और संवेदनशील जानकारी होती है, जिससे वे दुर्भावनापूर्ण या सामान्य उपयोगकर्ता क्वेरीज़ के माध्यम से एलएलएम कमजोरियों के शोषण के प्रति संवेदनशील हो जाते हैं। प्रॉम्प्टकीपर दो प्रमुख चुनौतियों का समाधान करता है: प्रॉम्प्ट लीक का विश्वसनीय रूप से पता लगाना और लीक होने पर साइड-चैनल कमजोरियों को कम करना। लीक का पता लगाने को एक परिकल्पना परीक्षण समस्या के रूप में प्रस्तुत करके, यह स्पष्ट और सूक्ष्म, दोनों प्रकार के लीक की प्रभावी रूप से पहचान करता है। जब किसी लीक का पता चलता है, तो यह डमी प्रॉम्प्ट का उपयोग करके प्रतिक्रियाओं को पुन: उत्पन्न करता है, जिससे वे लीक रहित सामान्य इंटरैक्शन से अप्रभेद्य हो जाते हैं। परिणामस्वरूप, यह दुर्भावनापूर्ण या सामान्य क्वेरीज़ के माध्यम से प्रॉम्प्ट निष्कर्षण हमलों के विरुद्ध मज़बूत सुरक्षा प्रदान करता है, जबकि सामान्य उपयोगकर्ता इंटरैक्शन की संवादात्मक क्षमताओं और निष्पादन दक्षता को बनाए रखता है।