दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सौम्य आयात विषाक्त: प्रतिकूल रूपकों के माध्यम से भाषा मॉडल को जेलब्रेक करना

Created by
  • Haebom

लेखक

यू यान, शेंग सन, ज़ेंगहाओ डुआन, तेली लियू, मिन लियू, झियी यिन, जियानग्यू लेई, क्यूई ली

रूपरेखा

यह शोधपत्र बताता है कि बड़े पैमाने के भाषा मॉडल (एलएलएम) द्वारा दुर्भावनापूर्ण सामग्री उत्पन्न करने के जोखिम पर किए गए पिछले अध्ययनों ने इस तथ्य की अनदेखी की है कि मौजूदा सौम्य सामग्री को दुर्भावनापूर्ण रूप में बदलना सीधे दुर्भावनापूर्ण सामग्री उत्पन्न करने की तुलना में आसान है। इसलिए, हम एक नए हमले के ढाँचे, एडवर्सएरियल मेटाफोर (AVATAR) का प्रस्ताव करते हैं। AVATAR दुर्भावनापूर्ण प्रश्नों के उत्तर देने के लिए सौम्य लेकिन तार्किक रूप से संबंधित रूपकों का उपयोग प्रारंभिक बीज के रूप में करता है। यह लक्षित एलएलएम को रूपक सामग्री के बारे में तर्क करने और उसे रूपांतरित करने की अनुमति देता है। परिणामस्वरूप, एलएलएम को या तो सीधे दुर्भावनापूर्ण प्रतिक्रियाएँ देकर या रूपक सामग्री और तकनीकी रूप से दुर्भावनापूर्ण सामग्री के बीच के अवशिष्ट को रूपांतरित करके नियंत्रित किया जा सकता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि AVATAR प्रभावी रूप से और हस्तांतरणीय रूप से कई उन्नत एलएलएम पर हमला करता है, जिससे अत्याधुनिक हमले की सफलता दर प्राप्त होती है।

Takeaways, Limitations

Takeaways:
एलएलएम में दुर्भावनापूर्ण सामग्री निर्माण के जोखिमों पर एक नया परिप्रेक्ष्य (रूपक परिवर्तन के माध्यम से हमले)
AVATAR फ्रेमवर्क प्रस्तुत करना जो मौजूदा अध्ययनों के Limitations का पूरक है।
विभिन्न उन्नत एलएलएम के लिए प्रभावी हमले के तरीके प्रस्तुत करना और अत्याधुनिक हमले की सफलता दर हासिल करना।
एलएलएम की सुरक्षा और संरक्षा बढ़ाने के लिए नए अनुसंधान निर्देश प्रस्तुत करना।
Limitations:
AVATAR हमले की सामान्यता और विभिन्न LLMs पर इसकी प्रयोज्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
AVATAR हमलों के विरुद्ध रक्षा तकनीकों के विकास और अनुसंधान की आवश्यकता है।
वास्तविक दुनिया के परिदृश्यों में AVATAR हमलों की प्रभावशीलता और जोखिमों पर आगे विश्लेषण की आवश्यकता है।
विशिष्ट रूपकों पर निर्भरता से हमलों के सीमित होने की संभावना मौजूद है।
👍