यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र एक नवीन ढाँचे का प्रस्ताव करता है जो बड़े पैमाने के भाषा मॉडल (LLM) के सुरक्षा संरेखण तंत्र में कमज़ोरियों को दूर करने के लिए हमलों और बचावों को एकीकृत करता है। LLM मध्यवर्ती परत एम्बेडिंग की रैखिक पृथक्करणीयता और सुरक्षित क्षेत्रों में दुर्भावनापूर्ण प्रश्नों को प्रसारित करने वाले जेलब्रेक हमलों की प्रकृति के आधार पर, हम LLM के भीतर सुरक्षा निर्णय सीमाओं को समझने के लिए एक जनरेटिव एडवर्सेरियल नेटवर्क (GAN) का उपयोग करते हैं। प्रायोगिक परिणाम तीन प्रमुख LLM पर 88.85% की औसत जेलब्रेक सफलता दर और एक अत्याधुनिक जेलब्रेक डेटासेट पर 84.17% की औसत बचाव सफलता दर प्रदर्शित करते हैं, जो प्रस्तावित विधि की प्रभावशीलता को प्रमाणित करता है और LLM के आंतरिक सुरक्षा तंत्रों के बारे में नई जानकारी प्रदान करता है। कोड और डेटा https://github.com/NLPGM/CAVGAN पर उपलब्ध हैं ।