इस पत्र में, हम ऑटोस्टीयर का प्रस्ताव करते हैं, जो मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (एमएलएलएम) की सुरक्षा में सुधार के लिए एक अनुमान-समय मध्यस्थता तकनीक है। ऑटोस्टीयर में तीन मुख्य घटक होते हैं: सुरक्षा जागरूकता स्कोर (एसएएस), अनुकूली सुरक्षा प्रोब और हल्के रिजेक्ट हेड, अंतर्निहित मॉडलों में किसी भी प्रकार का सुधार किए बिना। एसएएस स्वचालित रूप से एक मॉडल के भीतर परतों के बीच सुरक्षा-संबंधित अंतरों की पहचान करता है, अनुकूली सुरक्षा प्रोब मध्यवर्ती अभ्यावेदन से हानिकारक आउटपुट की संभावना का अनुमान लगाते हैं, और रिजेक्ट हेड सुरक्षा खतरों का पता चलने पर चुनिंदा रूप से उत्पादन को समायोजित करते हैं। एलएलएवीए-ओवी और गिरगिट का उपयोग करके किए गए प्रायोगिक परिणाम दर्शाते हैं कि ऑटोस्टीयर सामान्य कार्यक्षमता को बनाए रखते हुए पाठ्य, दृश्य और मल्टीमॉडल खतरों के विरुद्ध हमले की सफलता दर (एएसआर) को उल्लेखनीय रूप से कम करता है।