दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कैवगन: एलएलएम के आंतरिक प्रतिनिधित्व पर जनरेटिव प्रतिकूल हमलों के माध्यम से जेलब्रेक और रक्षा को एकीकृत करना

Created by
  • Haebom

लेखक

ज़ियाओहू ली, युनफ़ेंग निंग, ज़ेपेंग बाओ, मेई जू, जियानहाओ चेन, तियुन कियान

रूपरेखा

यह शोधपत्र एक नवीन ढाँचे का प्रस्ताव करता है जो बड़े पैमाने के भाषा मॉडल (LLM) के सुरक्षा संरेखण तंत्र में कमज़ोरियों को दूर करने के लिए हमलों और बचावों को एकीकृत करता है। LLM मध्यवर्ती परत एम्बेडिंग की रैखिक पृथक्करणीयता और सुरक्षित क्षेत्रों में दुर्भावनापूर्ण प्रश्नों को प्रसारित करने वाले जेलब्रेक हमलों की प्रकृति के आधार पर, हम LLM के भीतर सुरक्षा निर्णय सीमाओं को समझने के लिए एक जनरेटिव एडवर्सेरियल नेटवर्क (GAN) का उपयोग करते हैं। प्रायोगिक परिणाम तीन प्रमुख LLM पर 88.85% की औसत जेलब्रेक सफलता दर और एक अत्याधुनिक जेलब्रेक डेटासेट पर 84.17% की औसत बचाव सफलता दर प्रदर्शित करते हैं, जो प्रस्तावित विधि की प्रभावशीलता को प्रमाणित करता है और LLM के आंतरिक सुरक्षा तंत्रों के बारे में नई जानकारी प्रदान करता है। कोड और डेटा https://github.com/NLPGM/CAVGAN पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
एलएलएम के आंतरिक सुरक्षा तंत्र की एक नई समझ प्रदान करता है।
हम GANs का उपयोग करते हुए एक कुशल जेलब्रेक हमले और रक्षा ढांचा प्रस्तुत करते हैं।
इस पद्धति की प्रभावशीलता उच्च जेलब्रेक सफलता दर (88.85%) और बचाव सफलता दर (84.17%) प्राप्त करने से प्रदर्शित होती है।
हम एलएलएम सुरक्षा को मजबूत करने के लिए एक नई दिशा प्रस्तुत करते हैं।
Limitations:
चूंकि ये परिणाम विशिष्ट एलएलएम और जेलब्रेक डेटासेट पर प्रायोगिक हैं, इसलिए उनकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
GAN-आधारित विधियां कम्प्यूटेशनल दृष्टि से महंगी हो सकती हैं।
नई जेलब्रेक हमले तकनीकों के प्रति इसकी अनुकूलन क्षमता के बारे में और अधिक सत्यापन की आवश्यकता है।
👍