दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएलएसआर: स्व-पुरस्कार से सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

टोबी सिमोंड्स, केविन लोपेज़, अकीरा योशियामा, डोमिनिक गार्मियर

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम के माध्यम से बड़े पैमाने के भाषा मॉडलों (एलएलएम) की जटिल समस्या-समाधान क्षमता में सुधार के लिए एक नवीन विधि प्रस्तुत करता है। पारंपरिक सुदृढीकरण अधिगम के लिए सत्यापन योग्य पुरस्कार संकेतों की आवश्यकता होती है, जो अक्सर सभी क्षेत्रों में महंगे और अव्यावहारिक होते हैं। यह अध्ययन दर्शाता है कि एलएलएम संदर्भ समाधान के बिना आत्म-निर्णय और सुधार के लिए निर्माण और सत्यापन के बीच विषमता का उपयोग कर सकते हैं। उलटी गिनती पहेलियों और एकीकरण समस्याओं का उपयोग करके आत्म-निर्णय को लागू करके, हम पारंपरिक सत्यापन विधियों के बराबर प्रदर्शन प्राप्त करते हैं। विशेष रूप से, आत्म-पुरस्कार के साथ प्रशिक्षित क्वेन 2.5 7बी डीपसीक डिस्टिल्ड मॉडल ने एमआईटी इंटीग्रेशन बी प्रतियोगिता में प्राप्त प्रदर्शन के बराबर प्रदर्शन प्राप्त किया। सिंथेटिक समस्या निर्माण के साथ, हम एक पूर्ण आत्म-सुधार चक्र स्थापित करते हैं जहाँ मॉडल स्वयं समस्याएँ उत्पन्न करता है, हल करता है और उनका मूल्यांकन करता है। यह दर्शाता है कि सुदृढीकरण अधिगम को कई क्षेत्रों में लागू किया जा सकता है जो पहले पुरस्कार डिज़ाइन की कठिनाई से सीमित थे। यह स्वायत्त एआई प्रणालियों की ओर एक महत्वपूर्ण कदम है जो मानवीय हस्तक्षेप के बिना स्व-निर्देशित अधिगम के माध्यम से निरंतर सुधार करते हैं।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि एलएलएम संदर्भ समाधान के बिना स्वयं निर्णय ले सकता है और सुदृढीकरण सीखने के माध्यम से अपने प्रदर्शन में सुधार कर सकता है।
यह उन क्षेत्रों में भी प्रयोज्यता का सुझाव देता है जहां पुरस्कार डिजाइन में कठिनाइयों के कारण सुदृढीकरण सीखना कठिन रहा है।
स्व-निर्देशित शिक्षण के माध्यम से स्वायत्त एआई प्रणालियों के विकास में महत्वपूर्ण प्रगति।
कृत्रिम समस्या निर्माण के माध्यम से एक पूर्ण आत्म-सुधार चक्र का निर्माण करना।
एमआईटी इंटीग्रेशन बी स्तर का प्रदर्शन प्राप्त करना।
Limitations:
इस अध्ययन में प्रस्तुत आत्म-निर्णय पद्धति की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार की समस्याओं के लिए प्रयोज्यता और प्रदर्शन सत्यापन आवश्यक है।
स्व-मूल्यांकन की सटीकता और विश्वसनीयता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
स्व-जनित समस्याओं की गुणवत्ता की समीक्षा आवश्यक है।
👍