दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रेवप्राग: एलएलएम सक्रियण विश्लेषण के माध्यम से पुनर्प्राप्ति-संवर्धित पीढ़ी में विषाक्तता के हमलों का खुलासा

Created by
  • Haebom

लेखक

ज़ू टैन, हाओ लुआन, मिंग्यु लुओ, ज़ियाओयान सन, पिंग चेन, जून दाई

रूपरेखा

यह शोधपत्र RevPRAG का प्रस्ताव करता है, जो RAG पॉइज़निंग हमलों के लिए एक नवीन पहचान तकनीक है, जो पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) प्रणालियों में एक भेद्यता है। RAG पॉइज़निंग में वांछित प्रतिक्रिया उत्पन्न करने के लिए ज्ञान डेटाबेस में दुर्भावनापूर्ण पाठ को इंजेक्ट करना शामिल है। RevPRAG एक स्वचालित पहचान पाइपलाइन है जो सामान्य और दुर्भावनापूर्ण प्रतिक्रियाओं के बीच अंतर करने के लिए LLM के सक्रियण पैटर्न का विश्लेषण करती है। इसने विभिन्न बेंचमार्क डेटासेट और RAG आर्किटेक्चर पर 98% की सच्ची सकारात्मक दर और लगभग 1% की झूठी सकारात्मक दर हासिल की। ​​यह सार्वजनिक रूप से सुलभ ज्ञान डेटाबेस का उपयोग करने वाले RAG सिस्टम की सुरक्षा को मजबूत करने में योगदान दे सकता है।

Takeaways, Limitations

Takeaways:
एलएलएम के सक्रियण पैटर्न के विश्लेषण के माध्यम से प्रस्तुत एक प्रभावी आरएजी विषाक्तता पहचान तकनीक।
उच्च सत्य सकारात्मक दर और निम्न मिथ्या सकारात्मक दर प्राप्त करके व्यावहारिक प्रयोज्यता प्रदर्शित करता है।
आरएजी प्रणाली की सुरक्षा में सुधार करने में योगदान देता है
Limitations:
चूंकि ये विशिष्ट एलएलएम और डेटासेट के लिए प्रदर्शन मूल्यांकन परिणाम हैं, इसलिए अन्य एलएलएम और डेटासेट के लिए सामान्यीकरण को सत्यापित करने की आवश्यकता है।
नए प्रकार के RAG विषाक्तता हमलों के लिए पता लगाने के प्रदर्शन का सत्यापन आवश्यक है।
वास्तविक दुनिया के वातावरण में दक्षता और मापनीयता पर और अधिक शोध की आवश्यकता है।
👍