दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीडीई: बड़े भाषा मॉडलों में कुशल सुदृढीकरण सीखने के लिए जिज्ञासा-संचालित अन्वेषण

Created by
  • Haebom

लेखक

रुनपेंग दाई, लिनफेंग सॉन्ग, हाओलिन लियू, जेनवेन लियांग, डियान यू, हैताओ एमआई, झाओपेंग तू, रुई लियू, टोंग झेंग, होंगटू झू, डोंग यू

रूपरेखा

यह शोधपत्र सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण अधिगम (RLVR) में वृहद भाषा मॉडलों (LLM) के अनुमान प्रदर्शन को बेहतर बनाने के लिए अन्वेषण रणनीतियों में सुधार पर केंद्रित है। मौजूदा RLVR विधियों की समयपूर्व अभिसरण और एन्ट्रॉपी क्षय की समस्याओं को हल करने के लिए, हम एक जिज्ञासा-संचालित अन्वेषण (CDE) ढाँचा प्रस्तावित करते हैं जो मॉडल की अंतर्निहित जिज्ञासा का लाभ उठाता है। उत्पन्न प्रतिक्रियाओं के संबंध में कर्ता की शर्मिंदगी और बहु-शीर्ष संरचना से प्राप्त आलोचक के मूल्य अनुमानों का विचरण, जिज्ञासा संकेतों के रूप में कार्य करते हैं और RLVR ढाँचे के भीतर अन्वेषण बोनस के रूप में कार्य करते हैं। सैद्धांतिक विश्लेषण दर्शाता है कि कर्ता-आधारित बोनस अति-आत्मविश्वास त्रुटियों को दंडित करता है और उत्तर विविधता को बढ़ावा देता है, जबकि आलोचक-आधारित बोनस पारंपरिक RL अन्वेषण बोनस से जुड़ा है। प्रायोगिक परिणाम AIME बेंचमार्क पर मानक RLVR की तुलना में लगभग 3-बिंदु प्रदर्शन सुधार प्रदर्शित करते हैं। इसके अलावा, हम LLM में एक सामान्य विफलता मोड को उजागर करने के लिए RLVR के भीतर क्षतिपूर्ति क्षय तंत्र का विश्लेषण करते हैं।

Takeaways, Limitations

Takeaways:
एलएलएम तर्क क्षमता में सुधार के लिए एक प्रभावी अन्वेषण रणनीति के रूप में जिज्ञासा-संचालित अन्वेषण (सीडीई) ढांचे को प्रस्तुत करना
अभिनेता और आलोचक जिज्ञासा संकेतों का लाभ उठाते हुए एक उपन्यास अन्वेषण बोनस डिजाइन और सैद्धांतिक विश्लेषण।
AIME बेंचमार्क में मौजूदा RLVR पर प्रदर्शन सुधार का प्रयोगात्मक सत्यापन किया गया।
आरएलवीआर के क्षतिपूर्ति पतन तंत्र के विश्लेषण के माध्यम से एलएलएम विफलता मोड की समझ को बढ़ाना।
Limitations:
प्रस्तावित विधि के प्रदर्शन सुधार AIME बेंचमार्क तक सीमित हैं। अन्य बेंचमार्क और कार्यों के लिए सामान्यीकरण की आवश्यकता है।
जिज्ञासा संकेतों को परिभाषित करने और स्थापित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
क्षतिपूर्ति पतन तंत्र का अधिक गहन विश्लेषण तथा समाधान की आवश्यकता है।
👍