यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बताता है कि बड़े पैमाने के भाषा मॉडल (एलएलएम) द्वारा दुर्भावनापूर्ण सामग्री उत्पन्न करने के जोखिम पर किए गए पिछले अध्ययनों ने इस तथ्य की अनदेखी की है कि मौजूदा सौम्य सामग्री को दुर्भावनापूर्ण रूप में बदलना सीधे दुर्भावनापूर्ण सामग्री उत्पन्न करने की तुलना में आसान है। इसलिए, हम एक नए हमले के ढाँचे, एडवर्सएरियल मेटाफोर (AVATAR) का प्रस्ताव करते हैं। AVATAR दुर्भावनापूर्ण प्रश्नों के उत्तर देने के लिए सौम्य लेकिन तार्किक रूप से संबंधित रूपकों का उपयोग प्रारंभिक बीज के रूप में करता है। यह लक्षित एलएलएम को रूपक सामग्री के बारे में तर्क करने और उसे रूपांतरित करने की अनुमति देता है। परिणामस्वरूप, एलएलएम को या तो सीधे दुर्भावनापूर्ण प्रतिक्रियाएँ देकर या रूपक सामग्री और तकनीकी रूप से दुर्भावनापूर्ण सामग्री के बीच के अवशिष्ट को रूपांतरित करके नियंत्रित किया जा सकता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि AVATAR प्रभावी रूप से और हस्तांतरणीय रूप से कई उन्नत एलएलएम पर हमला करता है, जिससे अत्याधुनिक हमले की सफलता दर प्राप्त होती है।
Takeaways, Limitations
•
Takeaways:
◦
एलएलएम में दुर्भावनापूर्ण सामग्री निर्माण के जोखिमों पर एक नया परिप्रेक्ष्य (रूपक परिवर्तन के माध्यम से हमले)
◦
AVATAR फ्रेमवर्क प्रस्तुत करना जो मौजूदा अध्ययनों के Limitations का पूरक है।
◦
विभिन्न उन्नत एलएलएम के लिए प्रभावी हमले के तरीके प्रस्तुत करना और अत्याधुनिक हमले की सफलता दर हासिल करना।
◦
एलएलएम की सुरक्षा और संरक्षा बढ़ाने के लिए नए अनुसंधान निर्देश प्रस्तुत करना।
•
Limitations:
◦
AVATAR हमले की सामान्यता और विभिन्न LLMs पर इसकी प्रयोज्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
AVATAR हमलों के विरुद्ध रक्षा तकनीकों के विकास और अनुसंधान की आवश्यकता है।
◦
वास्तविक दुनिया के परिदृश्यों में AVATAR हमलों की प्रभावशीलता और जोखिमों पर आगे विश्लेषण की आवश्यकता है।
◦
विशिष्ट रूपकों पर निर्भरता से हमलों के सीमित होने की संभावना मौजूद है।