[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मॉडल छेड़छाड़ के हमले एलएलएम क्षमताओं के अधिक कठोर मूल्यांकन को सक्षम बनाते हैं

Created by
  • Haebom

लेखक

ज़ोरा चे, स्टीफ़न कैस्पर, रॉबर्ट किर्क, अनिरुद्ध सतीश, स्टीवर्ट स्लोकम, लेव ई मैककिनी, रोहित गैंडिकोटा, एडन इवार्ट, डोमिनिक रोसाती, ज़िचू वू, ज़िकुई कै, बिलाल चुगताई, यारिन गैल, फुरोंग हुआंग, डायलन हेडफील्ड-मेनेल

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) के जोखिम और क्षमता मूल्यांकन को एआई जोखिम प्रबंधन और शासन ढाँचों में एकीकृत करने के तरीके का अध्ययन करता है। हम मौजूदा इनपुट-आउटपुट मूल्यांकन विधियों की सीमाओं (यथार्थवादी पूर्ण जोखिम मूल्यांकन की असंभवता और केवल सबसे खराब स्थिति वाले इनपुट-आउटपुट व्यवहारिक निम्न सीमाओं की प्रस्तुति) की ओर इशारा करते हैं, और अव्यक्त सक्रियण या भार संशोधन के माध्यम से मॉडल हेरफेर हमलों का उपयोग करके एक पूरक मूल्यांकन विधि का प्रस्ताव करते हैं। हम पाँच इनपुट-स्पेस हमलों और छह मॉडल हेरफेर हमलों का उपयोग करके अत्याधुनिक हानिकारक एलएलएम फ़ीचर निष्कासन तकनीकों का मूल्यांकन करते हैं, और दर्शाते हैं कि मॉडल की मजबूती एक निम्न-आयामी मजबूती उप-स्पेस में मौजूद है, और मॉडल हेरफेर हमलों की सफलता दर होल्डआउट इनपुट-स्पेस हमलों की सफलता दर का एक रूढ़िवादी अनुमान प्रदान करती है। हम यह भी दर्शाते हैं कि अत्याधुनिक अनलर्निंग विधियों को फ़ाइन-ट्यूनिंग के 16 चरणों के भीतर आसानी से अमान्य किया जा सकता है। निष्कर्ष में, हम हानिकारक एलएलएम फ़ीचरों को दबाने की कठिनाई पर प्रकाश डालते हैं, और दर्शाते हैं कि मॉडल हेरफेर हमले अकेले इनपुट-स्पेस हमलों की तुलना में कहीं अधिक कठोर आकलन सक्षम करते हैं।

Takeaways, Limitations

Takeaways:
हम मॉडल हेरफेर हमलों के माध्यम से एलएलएम के जोखिम का अधिक कठोरता से आकलन करने के लिए एक नवीन विधि प्रस्तुत करते हैं।
मॉडल हेरफेर हमले की सफलता दर का उपयोग इनपुट स्पेस हमलों की सफलता दर की भविष्यवाणी करने के लिए किया जा सकता है।
अत्याधुनिक अनलर्निंग तकनीकों की भेद्यता का प्रदर्शन करके एलएलएम सुरक्षा सुनिश्चित करने की कठिनाई पर प्रकाश डालना।
हम दिखाते हैं कि एलएलएम की मजबूती निम्न-आयामी उप-स्थानों में मौजूद है।
Limitations:
प्रस्तावित मॉडल हेरफेर हमले विधि की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
अधिक विविध प्रकार के एलएलएम और आक्रमण तकनीकों के साथ प्रयोग की आवश्यकता है।
मॉडल हेरफेर हमलों की वास्तविक दुनिया में प्रयोज्यता और नैतिक मुद्दों पर चर्चा का अभाव।
👍