[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या है इसकी वजह? अवधारणा परिवर्तन के माध्यम से AI प्रशिक्षण और अनुमान में सत्यनिष्ठा और गुण-दोष का मूल्यांकन

Created by
  • Haebom

लेखक

जियामिन चांग, हाओयांग ली, हैमंड पीयर्स, रुओक्सी सन, बो ली, मिनहुई ज़ू

रूपरेखा

कॉन्सेप्टलेंस एक सामान्य ढाँचा है जो पूर्व-प्रशिक्षित बहु-मॉडल मॉडलों का उपयोग करके अवधारणा परिवर्तनों का विश्लेषण करके AI प्रणालियों में विश्वसनीयता संबंधी खतरों (अखंडता, गोपनीयता, सुदृढ़ता और पूर्वाग्रह) के मूल कारणों की पहचान करता है। यह मौजूदा डेटा पॉइज़निंग हमलों का पता लगाने, दुर्भावनापूर्ण अवधारणा परिवर्तनों के माध्यम से गुप्त विज्ञापन निर्माण जैसी पूर्वाग्रह इंजेक्शन कमजोरियों को उजागर करने, अपरिवर्तित लेकिन उच्च-जोखिम वाले नमूनों में गोपनीयता जोखिमों की पहचान करने और प्रशिक्षण से पहले उन्हें फ़िल्टर करने, और अपूर्ण या असंतुलित प्रशिक्षण डेटा के कारण मॉडल की कमज़ोरियों की जानकारी प्रदान करने जैसी क्षमताएँ प्रदान करता है। यह उन अवधारणाओं की भी पहचान करता है जिन पर मॉडल मॉडल स्तर पर अत्यधिक निर्भर करते हैं, भ्रामक अवधारणाओं की पहचान करता है, और मॉडल पर प्रमुख अवधारणा व्यवधान के नकारात्मक प्रभाव की व्याख्या करता है। इसके अलावा, यह उत्पन्न सामग्री में सामाजिक पूर्वाग्रह को उजागर करता है और सामाजिक संदर्भ के आधार पर असंतुलन को दर्शाता है। आश्चर्यजनक रूप से, यह दर्शाता है कि सुरक्षित प्रशिक्षण और अनुमान डेटा का अनजाने में आसानी से शोषण किया जा सकता है, जिससे सुरक्षा संरेखण कमज़ोर हो जाता है। यह शोध AI प्रणालियों में विश्वास बढ़ाने, अपनाने में तेज़ी लाने और नवाचार को बढ़ावा देने के लिए कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है।

Takeaways, Limitations

Takeaways:
एआई प्रणालियों में विश्वसनीयता संबंधी खतरों (अखंडता, गोपनीयता, मजबूती, पूर्वाग्रह) के मूल कारणों की पहचान करने और उनका विश्लेषण करने की क्षमता
विभिन्न प्रकार के हमलों (डेटा विषाक्तता, पूर्वाग्रह इंजेक्शन) का पता लगाने और भेद्यता विश्लेषण करने में सक्षम
मॉडल निर्भरताओं और कमजोरियों की पहचान करके सुधार की दिशाएँ सुझाना
सुरक्षित डेटा के दोहन की संभावना को प्रदर्शित करता है, सुरक्षित संरेखण के महत्व पर प्रकाश डालता है
एआई प्रणालियों और तकनीकी प्रगति में विश्वास को बेहतर बनाने में योगदान दें
Limitations:
कॉन्सेप्टलेन्स के प्रदर्शन और सामान्यीकरण पर अतिरिक्त प्रयोगों और सत्यापन की आवश्यकता है।
कुछ प्रकार के हमलों या पूर्वाग्रहों के लिए पहचान प्रदर्शन में संभावित गिरावट
जटिल और विविध एआई प्रणालियों के लिए प्रयोज्यता और दक्षता पर आगे अनुसंधान की आवश्यकता है।
सामाजिक पूर्वाग्रह का पता लगाने की सटीकता और व्याख्या की निष्पक्षता की समीक्षा की आवश्यकता
👍