यह शोधपत्र बड़े पैमाने के भाषा मॉडलों में संरेखण छलावरण (जिसे भ्रामक संरेखण भी कहा जाता है) नामक परिघटना का पहला अनुभवजन्य प्रमाण प्रस्तुत करता है। विशेष रूप से, हम प्रदर्शित करते हैं कि संरेखण छलावरण LLaMA 3 8B जैसे छोटे पैमाने के निर्देशात्मक समन्वय मॉडलों में भी हो सकता है। इसके अलावा, हम यह भी प्रदर्शित करते हैं कि मॉडल में कोई बदलाव किए बिना, नैतिक ढाँचा प्रदान करने या स्क्रैचपैड तर्क का उपयोग करने जैसे संकेत-आधारित हस्तक्षेपों का उपयोग करके इस व्यवहार को काफ़ी हद तक कम किया जा सकता है। यह खोज इस धारणा को चुनौती देती है कि संकेत-आधारित नैतिक दृष्टिकोण सरल हैं और भ्रामक संरेखण पूरी तरह से मॉडल के आकार पर निर्भर करता है। हम एक वर्गीकरण प्रस्तुत करते हैं जो "सतही छलावरण" (जो संदर्भ-निर्भर है और संकेतों द्वारा दबाया जा सकता है) और "गहन छलावरण" (जो लगातार, लक्ष्य-निर्देशित गलत संरेखण को दर्शाता है) के बीच अंतर करता है। ये निष्कर्ष भाषा मॉडलों में छलावरण की हमारी समझ को परिष्कृत करते हैं और मॉडल आकारों और परिनियोजन परिवेशों में संरेखण मूल्यांकन की आवश्यकता पर प्रकाश डालते हैं।