यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यापक उपयोग, विशेष रूप से जेलब्रेक और डेटा लीक हमलों से उत्पन्न सुरक्षा खतरों पर केंद्रित है। हम देखते हैं कि संवर्धित पुनर्प्राप्ति पीढ़ी (आरएजी), जो एलएलएम में प्रासंगिक जागरूकता को बढ़ाती है, संवेदनशील सूचना रिसाव की कमज़ोरियों को भी जन्म देती है। इसलिए, हम एलएलएम प्रणालियों में ऐतिहासिक अंतःक्रिया डेटा का विश्लेषण करके विषय-विशिष्ट (प्रतिकूल सहित) उपयोग मानचित्र तैयार करने की एक पद्धति प्रस्तुत करते हैं। यह जेलब्रेक हमले के पैटर्न के विकास पर नज़र रखने के लिए फोरेंसिक अंतर्दृष्टि प्रदान करता है। इसके अलावा, हम लीकसीलर का प्रस्ताव करते हैं, जो एक मॉडल-स्वतंत्र ढाँचा है जो फोरेंसिक अंतर्दृष्टि के लिए स्थैतिक विश्लेषण को ह्यूमन-इन-द-लूप (एचआईटीएल) पाइपलाइन की गतिशील सुरक्षा के साथ जोड़ता है। लीकसीलर विषय समूहों की पहचान करता है और असामान्य पैटर्न का पता लगाता है, जिससे सक्रिय रक्षा तंत्र सक्षम होते हैं। हम दो परिदृश्यों में लीकसीलर का प्रयोगात्मक मूल्यांकन करते हैं: जेलब्रेक प्रयास (एक सार्वजनिक बेंचमार्क डेटासेट का उपयोग करके) और पीआईआई लीकेज (लेबल किए गए एलएलएम अंतःक्रियाओं के एक क्यूरेटेड डेटासेट का उपयोग करके)। स्थिर सेटिंग्स में, लीकसीलर टॉक्सिकचैट डेटासेट पर त्वरित इंजेक्शन की पहचान करते समय उच्चतम सटीकता और रिकॉल प्राप्त करता है। गतिशील सेटिंग्स में, यह PII लीक का पता लगाने के लिए 0.97 का AUPRC प्राप्त करता है, जो लामा गार्ड जैसे बेसलाइन मॉडल से काफी बेहतर प्रदर्शन करता है।