यह शोधपत्र एक अनुमान मॉडल की जेलब्रेक हमलों के प्रति भेद्यता पर शोध प्रस्तुत करता है जो विचार श्रृंखला (CoT) टोकन उत्पन्न करता है। मौजूदा भाषा मॉडलों के विपरीत, जो प्रॉम्प्ट-रिस्पांस सीमा पर अस्वीकृति के निर्णय लेते हैं, हमें इस बात के प्रमाण मिले हैं कि डीपसीक-R1-डिस्टिल-लामा-8B मॉडल CoT निर्माण प्रक्रिया के भीतर अस्वीकृति के निर्णय लेता है। हमने CoT टोकन निर्माण के दौरान सक्रियण स्थान में एक रैखिक दिशा (ध्यान दिशा) की पहचान की जो भविष्यवाणी करती है कि मॉडल अस्वीकार करेगा या स्वीकार करेगा। यह दिशा उत्पन्न पाठ में जानबूझकर अनुमान लगाने के एक पैटर्न से मेल खाती है। मॉडल सक्रियण से इस दिशा को हटाने से हानिकारक स्वीकृति बढ़ जाती है, जिससे मॉडल को प्रभावी रूप से जेलब्रेक किया जा सकता है। हम यह भी प्रदर्शित करते हैं कि अंतिम आउटपुट को केवल CoT टोकन सक्रियण में हेरफेर करके नियंत्रित किया जा सकता है, और इस दिशा को प्रॉम्प्ट-आधारित हमले में शामिल करने से सफलता दर में सुधार होता है। परिणामस्वरूप, हमारे निष्कर्ष बताते हैं कि विचारों की श्रृंखला स्वयं अनुमान मॉडलों के प्रतिकूल हेरफेर के लिए एक आशाजनक नया लक्ष्य प्रस्तुत करती है।