दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सेफवर्क-आर1: एआई-45$^{\circ}$ कानून के तहत सह-विकसित सुरक्षा और बुद्धिमत्ता

Created by
  • Haebom

लेखक

शंघाई एआई लैब, :, यिचेंग बाओ, गुआनक्सू चेन, मिंगकांग चेन, युन्हाओ चेन, चियु चेन, लिंग्जी चेन, सिरुई चेन, झिनक्वान चेन, जी चेंग, यू चेंग, डेंगके डेंग, यिझुओ डिंग, डैन डिंग, ज़ियाओशान डिंग, यी डिंग, झिचेन डोंग, लिंग्ज़ियाओ डु, युयु फैन, रुइजुन जीई, तियानले गु, लुजुन गुई, जियाक्सुआन गुओ, कियानक्सी हे, युएनन होउ, ज़ुहाओ हू, होंग हुआंग, कैचेन हुआंग, शियांग हुआंग, युक्सियन जियांग, शांज़े लेई, जी ली, लिजुन ली, हाओ ली, जुनचेंग ली, जियांगटियन ली, याफू ली, लिंग्यु ली, ज़ुएयान ली, हाओटियन लियांग, डोंगरुई लियू, किहुआ लियू, झिक्सुआन लियू, बंगवेई लियू, हुआकन लियू, यूएक्सियाओ लियू, ज़ोंगकाई लियू, चाओचाओ लू, युडोंग लू, ज़ियाओया लू, झेंगहाओ लू, कितान लव, काओयुआन मा, जियाचेन मा, ज़ियाओया मा, झोंगटियन मा, लिंग्यु मेंग, ज़िकी मियाओ, याज़े नी, युएझांग पेंग, युआन पु, हान क्यूई, चेन कियान, जिंगगे किआओ, जिंगजिंग क्व, जियाशु क्यू, वानिंग क्व, वेनवेन क्व, ज़ियाओये क्व, किहान रेन, किंगनान रेन, क्विंग्यू रेन, जिंग शाओ, वेनकी शाओ, शुआई शाओ, डोंगक्सिंग शी, शिन सोंग, शिन्हाओ सॉन्ग, यान टेंग, जुआन टोंग, यिंगचुन वांग, ज़ुहोंग वांग, शुजी वांग, रुओफ़ान वांग, वेन्जी वांग, याजी वांग, मुहाओ वेई, ज़ियाओयू वेन, फ़ेंघुआ वेंग, युकी वू, यिंगटोंग ज़िओंग,

रूपरेखा

हम SafeWork-R1 प्रस्तुत करते हैं, जो SafeLadder फ्रेमवर्क का उपयोग करके विकसित एक अत्याधुनिक मल्टीमॉडल अनुमान मॉडल है। SafeLadder प्रशिक्षण के बाद बड़े पैमाने पर, वृद्धिशील, सुरक्षा-उन्मुख सुदृढीकरण सीखने को एक बहु-सिद्धांत सत्यापनकर्ता के साथ एकीकृत करता है। मौजूदा RLHFs के विपरीत, SafeWork-R1 अंतर्निहित सुरक्षा-संबंधी तर्क और आत्म-चिंतन क्षमताएँ विकसित करता है, जिसके परिणामस्वरूप सुरक्षा "आहा" क्षण उत्पन्न होते हैं। यह सुरक्षा-संबंधी मानदंडों पर बेसलाइन मॉडल, Qwen2.5-VL-72B से औसतन 46.54% बेहतर प्रदर्शन करता है और GPT-4.1 और क्लाउड ओपस 4 जैसे अग्रणी स्वामित्व वाले मॉडलों से भी बेहतर प्रदर्शन करता है। अनुमान के दौरान दो हस्तक्षेप विधियों और एक जानबूझकर खोज तंत्र के माध्यम से चरण-दर-चरण सत्यापन को बढ़ाया जाता है। सेफवर्क-आर1-इंटर्नवीएल3-78बी, सेफवर्क-आर1-डीपसेक-70बी, और सेफवर्क-आर1-क्यूवेन2.5वीएल-7बी मॉडल भी विकसित किए गए, जो दर्शाते हैं कि सुरक्षा और कार्यक्षमता एक साथ विकसित हो सकती है।

Takeaways, Limitations

Takeaways:
हम सेफलैडर फ्रेमवर्क की प्रभावशीलता को प्रदर्शित करते हैं, जो प्रशिक्षण के बाद बड़े पैमाने पर सुदृढीकरण सीखने और एक बहु-सिद्धांत सत्यापनकर्ता को एकीकृत करता है।
सुरक्षा और प्रदर्शन में एक साथ सुधार लाने के लिए एक नई विधि प्रस्तुत की गई है।
मौजूदा शीर्ष मॉडलों से बेहतर सुरक्षा प्रदर्शन प्राप्त करना।
सुरक्षा के संबंध में आवश्यक तर्क और आत्म-चिंतन क्षमताओं के साथ एक मॉडल विकसित करने की संभावना का सुझाव देना।
विभिन्न बुनियादी मॉडलों के लिए फ्रेमवर्क की सामान्यीकरणीयता को सत्यापित करें।
Limitations:
सेफलैडर फ्रेमवर्क के विशिष्ट कार्यान्वयन और एल्गोरिथ्म के विस्तृत स्पष्टीकरण का अभाव।
प्रयुक्त बेंचमार्क और मूल्यांकन मेट्रिक्स के विस्तृत विवरण का अभाव।
वास्तविक दुनिया के वातावरण में सुरक्षा और विश्वसनीयता का और अधिक सत्यापन आवश्यक है।
विकसित मॉडल के संभावित जोखिमों और नैतिक मुद्दों पर चर्चा का अभाव।
👍