दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑयस्टर-I: इनकार से परे - जिम्मेदार भाषा मॉडल के लिए रचनात्मक सुरक्षा संरेखण

Created by
  • Haebom

लेखक

रंजी डुआन, जिएक्सी लियू, ज़ियाओजुन जिया, शिजी झाओ, रुओक्सी चेंग, फेंगज़ियांग वांग, चेंग वेई, योंग झी, चांग लियू, डेफेंग ली, यिनपेंग डोंग, यिची झांग, यूफेंग चेन, चोंगवेन वांग, जिंगजुन मा, जिंगक्सिंग वेई, यांग लियू, हैंग सु, जून झू, जियालिंग ताओ, हुई ज़ू

रूपरेखा

यह शोधपत्र "रचनात्मक सुरक्षा संरेखण (CSA)" प्रस्तुत करता है, जो एक नवीन सुरक्षा संरेखण प्रतिमान है जो न केवल दुर्भावनापूर्ण उपयोगकर्ताओं से, बल्कि मनोवैज्ञानिक संकट का अनुभव कर रहे असुरक्षित उपयोगकर्ताओं से उत्पन्न होने वाले जोखिमों पर भी विचार करता है। मौजूदा सुरक्षा तंत्रों के विपरीत, जो केवल दुर्भावनापूर्ण व्यवहार को अस्वीकार करते हैं, CSA उपयोगकर्ता प्रतिक्रियाओं का पूर्वानुमान लगाता है, जोखिम सीमाओं को परिष्कृत करता है, और व्याख्यात्मक अनुमान नियंत्रण के माध्यम से सुरक्षा को एक विश्वास-निर्माण प्रक्रिया में परिवर्तित करता है। ऑयस्टर-I (Oy1) नामक मॉडल पर कार्यान्वित, CSA उच्च समग्र प्रदर्शन बनाए रखते हुए मौजूदा खुले मॉडलों में सुरक्षा का उच्चतम स्तर प्राप्त करता है। यह संरचनागत बेंचमार्क पर GPT-5 के करीब प्रदर्शन करता है और स्ट्रैटा-स्वॉर्ड जेलब्रेक डेटासेट पर GPT-o1 के बराबर मजबूती प्राप्त करता है। यह शोधपत्र ज़िम्मेदार और उपयोगकर्ता-केंद्रित AI विकास का समर्थन करने के लिए Oy1 मॉडल, कोड और बेंचमार्क जारी करता है।

Takeaways, Limitations

Takeaways:
एक नया सुरक्षा प्रतिमान जो न केवल दुर्भावनापूर्ण उपयोगकर्ताओं पर विचार करता है, बल्कि मनोवैज्ञानिक कमजोरियों वाले उपयोगकर्ताओं पर भी विचार करता है।
सरल अस्वीकृति के बजाय मार्गदर्शन-केंद्रित सुरक्षा दृष्टिकोण के माध्यम से उपयोगकर्ताओं के साथ विश्वास का निर्माण करना और सकारात्मक बातचीत को बढ़ावा देना।
Oy1 मॉडल और संबंधित सामग्रियों के प्रकटीकरण के माध्यम से जिम्मेदार एआई विकास का समर्थन करना, जो एक साथ उच्च सुरक्षा और प्रदर्शन प्राप्त करता है।
उपयोगकर्ता-केंद्रित AI विकास पर एक नया दृष्टिकोण
Limitations:
सीएसए की प्रभावशीलता और सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के मनोवैज्ञानिक संकट और उपयोगकर्ता स्थितियों पर व्यापक विचार आवश्यक है।
GPT-5, GPT-o1, आदि के साथ तुलना परिणामों का विस्तृत स्पष्टीकरण और डेटा प्रकटीकरण आवश्यक है।
Oy1 मॉडल की दीर्घकालिक सुरक्षा और स्थिरता की निरंतर निगरानी आवश्यक है।
👍