दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आर-ज़ीरो: शून्य डेटा से स्व-विकसित तर्क एलएलएम

Created by
  • Haebom

लेखक

चेंगसोंग हुआंग, वेन्हाओ यू, ज़ियाओयांग वांग, होंगमिंग झांग, ज़ोंगक्सिया ली, रुओसेन ली, जियाक्सिन हुआंग, हैताओ एमआई, डोंग यू

रूपरेखा

यह शोधपत्र आर-ज़ीरो, एक स्व-विकसित वृहद भाषा मॉडल (एलएलएम) का प्रस्ताव करता है जो बिना किसी मानवीय हस्तक्षेप के स्वायत्त रूप से सीखता और सुधारता है। मौजूदा स्व-विकसित एलएलएम, जो मानव-जनित डेटा की विशाल मात्रा पर निर्भर करते हैं, के विपरीत, आर-ज़ीरो दो स्वतंत्र मॉडलों: एक चैलेंजर और एक सॉल्वर, का उपयोग करके अपना स्वयं का प्रशिक्षण डेटा उत्पन्न करता है। चैलेंजर, सॉल्वर की क्षमताओं के निकट कार्य प्रस्तुत करता है, और सॉल्वर उन्हें हल करके मॉडल के साथ अंतःक्रिया करता है। यह प्रक्रिया पूर्वनिर्धारित कार्यों या लेबलों के बिना एक लक्ष्य-उन्मुख, स्व-सुधार पाठ्यक्रम तैयार करती है। प्रायोगिक परिणाम दर्शाते हैं कि आर-ज़ीरो विभिन्न बुनियादी एलएलएम की तर्क क्षमता में सुधार करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन ढांचा प्रस्तुत करते हैं जो मानवीय हस्तक्षेप के बिना स्वायत्त रूप से शिक्षण डेटा उत्पन्न करता है।
मौजूदा एलएलएम की तर्क क्षमता में नाटकीय रूप से सुधार की संभावना का सुझाव देता है (गणितीय तर्क और सामान्य डोमेन तर्क प्रदर्शन में सुधार)।
सुपरइंटेलिजेंस के लिए एक मापनीय मार्ग प्रस्तुत करना।
Limitations:
आर-जीरो का प्रदर्शन सुधार कुछ बुनियादी एलएलएम और बेंचमार्क तक सीमित हो सकता है।
चूंकि यह पूर्णतः स्वायत्त शिक्षण प्रणाली है, इसलिए अप्रत्याशित परिणाम की संभावना बनी रहती है।
दीर्घकालिक शिक्षण प्रक्रियाओं के दौरान उत्पन्न होने वाले सुरक्षा और नैतिक मुद्दों पर विचार का अभाव।
चैलेंजर और सॉल्वर के बीच इंटरेक्शन डिज़ाइन के विस्तृत विवरण का अभाव।
👍