दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लीकसीलर: एलएलएम के लिए त्वरित इंजेक्शन और रिसाव हमलों के विरुद्ध एक अर्ध-पर्यवेक्षित बचाव

Created by
  • Haebom

लेखक

फ्रांसेस्को पैनेबियान्को, स्टेफ़ानो बोनफैंटी, फ्रांसेस्को ट्रोव ओ, मिशेल कार्मिनाती

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यापक उपयोग, विशेष रूप से जेलब्रेक और डेटा लीक हमलों से उत्पन्न सुरक्षा खतरों पर केंद्रित है। हम देखते हैं कि संवर्धित पुनर्प्राप्ति पीढ़ी (आरएजी), जो एलएलएम में प्रासंगिक जागरूकता को बढ़ाती है, संवेदनशील सूचना रिसाव की कमज़ोरियों को भी जन्म देती है। इसलिए, हम एलएलएम प्रणालियों में ऐतिहासिक अंतःक्रिया डेटा का विश्लेषण करके विषय-विशिष्ट (प्रतिकूल सहित) उपयोग मानचित्र तैयार करने की एक पद्धति प्रस्तुत करते हैं। यह जेलब्रेक हमले के पैटर्न के विकास पर नज़र रखने के लिए फोरेंसिक अंतर्दृष्टि प्रदान करता है। इसके अलावा, हम लीकसीलर का प्रस्ताव करते हैं, जो एक मॉडल-स्वतंत्र ढाँचा है जो फोरेंसिक अंतर्दृष्टि के लिए स्थैतिक विश्लेषण को ह्यूमन-इन-द-लूप (एचआईटीएल) पाइपलाइन की गतिशील सुरक्षा के साथ जोड़ता है। लीकसीलर विषय समूहों की पहचान करता है और असामान्य पैटर्न का पता लगाता है, जिससे सक्रिय रक्षा तंत्र सक्षम होते हैं। हम दो परिदृश्यों में लीकसीलर का प्रयोगात्मक मूल्यांकन करते हैं: जेलब्रेक प्रयास (एक सार्वजनिक बेंचमार्क डेटासेट का उपयोग करके) और पीआईआई लीकेज (लेबल किए गए एलएलएम अंतःक्रियाओं के एक क्यूरेटेड डेटासेट का उपयोग करके)। स्थिर सेटिंग्स में, लीकसीलर टॉक्सिकचैट डेटासेट पर त्वरित इंजेक्शन की पहचान करते समय उच्चतम सटीकता और रिकॉल प्राप्त करता है। गतिशील सेटिंग्स में, यह PII लीक का पता लगाने के लिए 0.97 का AUPRC प्राप्त करता है, जो लामा गार्ड जैसे बेसलाइन मॉडल से काफी बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
एलएलएम प्रणालियों में सुरक्षा खतरों (जेलब्रेक और डेटा लीक) के खिलाफ एक प्रभावी विश्लेषण और रक्षा पद्धति की प्रस्तुति।
एलएलएम इंटरैक्शन डेटा विश्लेषण के माध्यम से जेलब्रेक हमले के पैटर्न के विकास पर नज़र रखना।
मॉडल-स्वतंत्र लीकसीलर फ्रेमवर्क के माध्यम से विभिन्न एलएलएम पर लागू।
HITL पाइपलाइन के साथ उच्च सटीकता वाले खतरे का पता लगाना, जो स्थैतिक और गतिशील विश्लेषण को जोड़ता है।
मौजूदा रक्षा मॉडलों (जैसे लामा गार्ड) की तुलना में बेहतर प्रदर्शन प्रदर्शित किया।
Limitations:
प्रस्तावित कार्यप्रणाली और ढांचे के व्यावहारिक अनुप्रयोग पर आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के एलएलएम और आरएजी प्रणालियों के लिए सामान्यीकरण प्रदर्शन मूल्यांकन की आवश्यकता होती है।
नए प्रकार के जेलब्रेक और डेटा एक्सफिलट्रेशन हमलों के प्रति अनुकूलनशीलता का आकलन करने की आवश्यकता।
लीकसीलर की कम्प्यूटेशनल लागत और प्रदर्शन में गिरावट का विश्लेषण आवश्यक है।
उपयोग किये जाने वाले डेटासेट की सीमाओं (आकार, विविधता, प्रतिनिधित्व, आदि) पर विचार किया जाना आवश्यक है।
👍