यह शोधपत्र रैंक-वन सेफ्टी इंजेक्शन (ROSI) का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) की सुरक्षा में सुधार के लिए एक नवीन विधि है। ROSI एक सरल, रैंक-वन वेट संशोधन विधि है जो बिना फ़ाइन-ट्यूनिंग की आवश्यकता के, मॉडल सक्रियणों को अस्वीकृति पैरामीटर उप-स्थान में स्थायी रूप से निर्देशित करती है। यह हानिकारक और हानिरहित निर्देशों के युग्मों के एक छोटे समूह से आवश्यक सुरक्षा निर्देशों की गणना करता है और उन्हें सभी अवशिष्ट स्ट्रीम राइट मैट्रिसेस पर लागू करता है। लामा गार्ड 3 पर मूल्यांकन दर्शाता है कि ROSI मॉडल की उपयोगिता को बनाए रखते हुए सुरक्षा अस्वीकृति दर में लगातार सुधार करता है। इसके अलावा, हम प्रदर्शित करते हैं कि यह "बिना सेंसर" मॉडल में संभावित सुरक्षा निर्देशों को बढ़ा और पुनर्व्यवस्थित कर सकता है, जो एक प्रभावी अंतिम-चरण सुरक्षा प्रक्रिया के रूप में इसकी उपयोगिता को प्रदर्शित करता है। परिणामस्वरूप, लक्ष्य-निर्देशित और व्याख्या योग्य वेट स्टीयरिंग LLM सुरक्षा में सुधार के लिए एक सस्ता और शक्तिशाली तंत्र है, जो अधिक संसाधन-गहन फ़ाइन-ट्यूनिंग प्रतिमानों का पूरक है।