दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विशेषज्ञ मॉडल एकीकरण के साथ जेलब्रेक हमलों के विरुद्ध LLM आउटपुट में सुधार

Created by
  • Haebom

लेखक

तातिया त्समिंदाश्विली, एना कोलखिदाशविली, डाची कुर्त्सखालिया, नीनो माघलाकेलिद्ज़े, एलेन मेकवाबिश्विली, गुरम डेंटोशविली, ओरखान शमिलोव, ज़ाल गाचेचिलाद्ज़े, स्टीवन सपोर्टा, डेविड डाची चोलाद्ज़े

रूपरेखा

यह शोधपत्र सुरक्षा कमज़ोरियों, विशेष रूप से जेलब्रेक और प्रॉम्प्ट इंजेक्शन, को दूर करने के लिए एक नया दृष्टिकोण प्रस्तुत करता है, जो उत्पादन परिवेशों में बड़े पैमाने के भाषा मॉडल (एलएलएम) का उपयोग करते समय उत्पन्न होते हैं। हम मौजूदा फ़ाइन-ट्यूनिंग और एपीआई दृष्टिकोणों की सीमाओं पर प्रकाश डालते हैं और आर्कियास, एक डोमेन-विशिष्ट विशेषज्ञ मॉडल, का परिचय देते हैं। आर्कियास उपयोगकर्ता प्रश्नों को कई श्रेणियों में वर्गीकृत करता है—डोमेन-विशिष्ट, दुर्भावनापूर्ण, मूल्य-इंजेक्टेड, प्रॉम्प्ट-इंजेक्टेड, और आउट-ऑफ़-डोमेन—और इन परिणामों को एलएलएम के प्रॉम्प्ट में एकीकृत करके अधिक उपयुक्त प्रतिक्रियाएँ उत्पन्न करता है। हम ऑटोमोटिव उद्योग पर केंद्रित एक बेंचमार्क डेटासेट बनाकर अपने दृष्टिकोण को प्रमाणित करते हैं, और इसे सार्वजनिक रूप से उपलब्ध कराकर अनुसंधान की प्रगति में योगदान करते हैं।

Takeaways, Limitations

Takeaways:
डोमेन-विशिष्ट एलएलएम सुरक्षा संवर्द्धन उपाय प्रस्तुत: आर्कियास के माध्यम से डोमेन-विशिष्ट सुरक्षा खतरों के प्रति प्रभावी प्रतिक्रिया।
उपयोगकर्ता के इरादे की समझ में सुधार करना और उचित प्रतिक्रियाएं उत्पन्न करना: एलएलएम की प्रतिक्रिया सटीकता और सुरक्षा में सुधार करने के लिए आर्कियास के वर्गीकरण परिणामों का लाभ उठाना।
छोटे पैमाने के मॉडलों की उपयोगिता सिद्ध करना: आर्कियास का छोटा आकार विभिन्न उद्योगों और प्रयोजनों के लिए आसान अनुकूलन की अनुमति देता है।
ऑटोमोटिव उद्योग बेंचमार्क डेटासेट का विमोचन: अनुसंधान और विकास प्रगति में योगदान।
Limitations:
चूंकि यह मॉडल ऑटोमोटिव उद्योग के लिए विशिष्ट है, इसलिए अन्य क्षेत्रों में इसकी सामान्यता को सत्यापित करना आवश्यक है।
आर्कियास का प्रदर्शन एलएलएम और प्रयुक्त डेटासेट पर निर्भर हो सकता है।
नई जेलब्रेकिंग तकनीकों और त्वरित इंजेक्शन हमलों से निपटने के लिए निरंतर अद्यतन और सुधार की आवश्यकता है।
👍