दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एम2एस: एलएलएम के लिए रेड टीमिंग में मल्टी-टर्न से सिंगल-टर्न जेलब्रेक

Created by
  • Haebom

लेखक

जुनवू हा, ह्युनजुन किम, सांगयून यू, हाओन पार्क, अशकन युसेफपुर, युना पार्क, सुह्युन किम

रूपरेखा

यह शोधपत्र एक नवीन ढाँचा प्रस्तुत करता है जो बहु-टर्न प्रतिकूल "जेलब्रेक" संकेतों को एकल-टर्न क्वेरीज़ में समेकित करता है, जिससे बड़े पैमाने के भाषा मॉडल (LLM) के प्रतिकूल परीक्षण के लिए आवश्यक मैन्युअल प्रयास में उल्लेखनीय कमी आती है। बहु-टर्न मानव जेलब्रेक ने उच्च आक्रमण सफलता दर दर्शाई है, लेकिन इसके लिए महत्वपूर्ण मानव संसाधन और समय की आवश्यकता होती है। प्रस्तावित बहु-टर्न-एकल-टर्न (M2S) विधि (Hyphenize, Numberize, Pythonize) बहु-टर्न वार्तालापों को व्यवस्थित रूप से संरचित एकल-टर्न संकेतों में पुनः स्वरूपित करती है। दोहरावदार अंतःक्रियाओं को समाप्त करने के बावजूद, ये संकेत प्रतिकूल प्रभावकारिता को बनाए रखते हैं और अक्सर उसमें सुधार भी करते हैं। बहु-टर्न मानव जेलब्रेक (MHJ) डेटासेट पर व्यापक मूल्यांकन में, M2S विधि कई अत्याधुनिक LLM पर 70.6% से 95.9% तक की आक्रमण सफलता दर प्राप्त करती है। उल्लेखनीय रूप से, एकल-टर्न संकेत मूल बहु-टर्न आक्रमण से 17.5 प्रतिशत अंकों तक बेहतर प्रदर्शन करते हैं और औसत टोकन उपयोग को आधे से भी अधिक कम कर देते हैं। आगे के विश्लेषण से पता चलता है कि गणनाओं या कोड जैसी संरचनाओं में दुर्भावनापूर्ण अनुरोधों को एम्बेड करने से "संदर्भगत ब्लाइंड स्पॉट्स" का फायदा उठाया जाता है जिससे बुनियादी सुरक्षा उपायों और बाहरी इनपुट/आउटपुट फ़िल्टर, दोनों को दरकिनार कर दिया जाता है। M2S फ्रेमवर्क बहु-दौर की बातचीत को संक्षिप्त, एकल-दौर के संकेतों में बदल देता है, जिससे बड़े पैमाने पर प्रतिकूल परीक्षण के लिए एक मापनीय उपकरण उपलब्ध होता है और आधुनिक LLM सुरक्षा में एक गंभीर कमज़ोरी उजागर होती है।

Takeaways, Limitations

Takeaways:
हम बहु-दौर के प्रतिकूल हमलों को कुशलतापूर्वक एकल-दौर के हमलों में बदलने की एक विधि प्रस्तुत करते हैं, जिससे एलएलएम के प्रतिकूल परीक्षण की दक्षता में काफी सुधार होता है।
हम दर्शाते हैं कि एकल-टर्न प्रॉम्प्ट, बहु-टर्न प्रॉम्प्ट की तुलना में उच्च आक्रमण सफलता दर प्राप्त करते हैं, जिससे मौजूदा रक्षा तंत्र की कमजोरियां उजागर होती हैं।
हम एक नवीन आक्रमण तकनीक प्रस्तुत करते हैं जो LLM के "संदर्भगत अंध बिंदु" का फायदा उठाती है।
बड़े पैमाने पर प्रतिकूल परीक्षण के लिए एक स्केलेबल ढांचा प्रदान करता है।
Limitations:
प्रस्तावित M2S विधि की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
यह केवल कुछ प्रकार के एलएलएम या कुछ प्रकार के प्रतिकूल हमलों के विरुद्ध ही प्रभावी हो सकता है।
M2S विधि सभी प्रकार के जेलब्रेक हमलों के विरुद्ध प्रभावी नहीं हो सकती। विभिन्न प्रकार के हमलों के विरुद्ध आगे मूल्यांकन की आवश्यकता है।
👍