दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आंतरिक अभ्यावेदन का उपयोग करके तर्क मॉडल का प्रतिकूल हेरफेर

Created by
  • Haebom

लेखक

कुरेहा यामागुची, बेंजामिन एथरिज, एंडी अर्दिति

रूपरेखा

यह शोधपत्र एक अनुमान मॉडल की जेलब्रेक हमलों के प्रति भेद्यता पर शोध प्रस्तुत करता है जो विचार श्रृंखला (CoT) टोकन उत्पन्न करता है। मौजूदा भाषा मॉडलों के विपरीत, जो प्रॉम्प्ट-रिस्पांस सीमा पर अस्वीकृति के निर्णय लेते हैं, हमें इस बात के प्रमाण मिले हैं कि डीपसीक-R1-डिस्टिल-लामा-8B मॉडल CoT निर्माण प्रक्रिया के भीतर अस्वीकृति के निर्णय लेता है। हमने CoT टोकन निर्माण के दौरान सक्रियण स्थान में एक रैखिक दिशा (ध्यान दिशा) की पहचान की जो भविष्यवाणी करती है कि मॉडल अस्वीकार करेगा या स्वीकार करेगा। यह दिशा उत्पन्न पाठ में जानबूझकर अनुमान लगाने के एक पैटर्न से मेल खाती है। मॉडल सक्रियण से इस दिशा को हटाने से हानिकारक स्वीकृति बढ़ जाती है, जिससे मॉडल को प्रभावी रूप से जेलब्रेक किया जा सकता है। हम यह भी प्रदर्शित करते हैं कि अंतिम आउटपुट को केवल CoT टोकन सक्रियण में हेरफेर करके नियंत्रित किया जा सकता है, और इस दिशा को प्रॉम्प्ट-आधारित हमले में शामिल करने से सफलता दर में सुधार होता है। परिणामस्वरूप, हमारे निष्कर्ष बताते हैं कि विचारों की श्रृंखला स्वयं अनुमान मॉडलों के प्रतिकूल हेरफेर के लिए एक आशाजनक नया लक्ष्य प्रस्तुत करती है।

____T228721_____, ____T228722_____

Takeaways:
हम बताते हैं कि घटनाओं की श्रृंखला (सीओटी) निर्माण प्रक्रिया अनुमान मॉडल पर जेलब्रेकिंग हमलों के प्रति संवेदनशील है।
हम दिखाते हैं कि "ध्यान" दिशा जो मॉडल के अस्वीकृति/स्वीकृति निर्णय को प्रभावित करती है, उसे सक्रियण स्थान में पहचाना जा सकता है और मॉडल के आउटपुट को नियंत्रित करने के लिए उसमें हेरफेर किया जा सकता है।
यह CoT टोकन सक्रियण में हेरफेर करके अंतिम आउटपुट को नियंत्रित करने की संभावना का सुझाव देता है।
हम दिखाते हैं कि संकेत-आधारित हमलों में "ध्यान" दिशा को शामिल करने से उनकी सफलता दर बढ़ सकती है।
यह सुझाव देते हुए कि विचार श्रृंखला स्वयं अनुमान मॉडलों पर प्रतिकूल हमलों का एक नया लक्ष्य बन सकती है।
Limitations:
चूंकि यह एक विशिष्ट मॉडल (डीपसीक-आर1-डिस्टिल-लामा-8बी) पर किया गया अध्ययन है, इसलिए अन्य मॉडलों पर इसके परिणामों की सामान्यता सीमित है।
"ध्यान" दिशा में मॉडल के सटीक तंत्र और आंतरिक कार्यप्रणाली का आगे विश्लेषण आवश्यक है।
प्रस्तावित आक्रमण तकनीकों की वास्तविक दुनिया में प्रयोज्यता और जोखिम का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
👍