दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्टेपवाइजर: बुद्धिमान तर्क के लिए चरणबद्ध जनरेटिव न्यायाधीश

Created by
  • Haebom

लेखक

वेई ज़िओंग, वेंटिंग झाओ, वीज़े युआन, ओल्गा गोलोवनेवा, टोंग झांग, जेसन वेस्टन, सैनबयार सुखबातर

रूपरेखा

यह पत्र एक प्रक्रिया क्षतिपूर्ति मॉडल प्रस्तावित करता है जो बहु-चरणीय अनुमान रणनीतियों का उपयोग करने वाले मॉडलों में मध्यवर्ती-स्तरीय अनुमान की वैधता के पर्यवेक्षण की समस्या के समाधान हेतु चरण-दर-चरण प्रतिक्रिया प्रदान करता है। मौजूदा प्रक्रिया क्षतिपूर्ति मॉडलों में स्पष्टीकरणों का अभाव है और वे स्थिर डेटासेट का उपयोग करके पर्यवेक्षित अधिगम पर निर्भर करते हैं, जिसके परिणामस्वरूप सीमित सामान्यीकरण होता है (T15405)। इस पत्र में, हम चरण-दर-चरण क्षतिपूर्ति मॉडलिंग को वर्गीकरण कार्य के बजाय एक अनुमान कार्य के रूप में पुनर्परिभाषित करते हैं, और एक जनरेटिव जज का प्रस्ताव करते हैं जो एक नीति मॉडल के अनुमान चरणों का अनुमान लगाता है। प्रस्तावित मॉडल, स्टेपवाइज़र, को रोलआउट के सापेक्ष परिणामों का उपयोग करके सुदृढीकरण अधिगम का उपयोग करके प्रशिक्षित किया गया है, और यह मौजूदा विधियों की तुलना में बेहतर मध्यवर्ती-स्तरीय निर्णय सटीकता, प्रशिक्षण के दौरान बेहतर नीति मॉडलिंग और बेहतर अनुमान-समय खोज प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
मौजूदा प्रक्रिया क्षतिपूर्ति मॉडल की स्पष्टीकरण की कमी और खराब सामान्यीकरण क्षमता की समस्या को हल करें, जो कि Limitations है।
उत्पादक निर्णय के माध्यम से मध्यवर्ती अनुमानों की वैधता का अधिक सटीक ढंग से आकलन करें।
प्रशिक्षण के दौरान नीति मॉडलों का बेहतर प्रदर्शन और बेहतर अनुमान समय खोज प्रदान करता है।
बहु-स्तरीय अनुमान मॉडल के प्रदर्शन और विश्वसनीयता को बेहतर बनाने में योगदान देता है।
Limitations:
ऐसी संभावना है कि स्टेपवाइज़र मॉडल का प्रदर्शन सुधार विशिष्ट समस्या क्षेत्रों तक ही सीमित हो सकता है।
सुदृढीकरण अधिगम-आधारित प्रशिक्षण के कारण कम्प्यूटेशनल लागत और प्रशिक्षण समय में संभावित वृद्धि।
जनरेटिव जज में तर्क प्रक्रिया की व्याख्या करने की क्षमता का अभाव हो सकता है।
वास्तविक दुनिया की जटिल समस्याओं के लिए सामान्यीकरण की आगे की पुष्टि की आवश्यकता है।
👍