यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण अधिगम (RLVR) में वृहद भाषा मॉडलों (LLM) के अनुमान प्रदर्शन को बेहतर बनाने के लिए अन्वेषण रणनीतियों में सुधार पर केंद्रित है। मौजूदा RLVR विधियों की समयपूर्व अभिसरण और एन्ट्रॉपी क्षय की समस्याओं को हल करने के लिए, हम एक जिज्ञासा-संचालित अन्वेषण (CDE) ढाँचा प्रस्तावित करते हैं जो मॉडल की अंतर्निहित जिज्ञासा का लाभ उठाता है। उत्पन्न प्रतिक्रियाओं के संबंध में कर्ता की शर्मिंदगी और बहु-शीर्ष संरचना से प्राप्त आलोचक के मूल्य अनुमानों का विचरण, जिज्ञासा संकेतों के रूप में कार्य करते हैं और RLVR ढाँचे के भीतर अन्वेषण बोनस के रूप में कार्य करते हैं। सैद्धांतिक विश्लेषण दर्शाता है कि कर्ता-आधारित बोनस अति-आत्मविश्वास त्रुटियों को दंडित करता है और उत्तर विविधता को बढ़ावा देता है, जबकि आलोचक-आधारित बोनस पारंपरिक RL अन्वेषण बोनस से जुड़ा है। प्रायोगिक परिणाम AIME बेंचमार्क पर मानक RLVR की तुलना में लगभग 3-बिंदु प्रदर्शन सुधार प्रदर्शित करते हैं। इसके अलावा, हम LLM में एक सामान्य विफलता मोड को उजागर करने के लिए RLVR के भीतर क्षतिपूर्ति क्षय तंत्र का विश्लेषण करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
एलएलएम तर्क क्षमता में सुधार के लिए एक प्रभावी अन्वेषण रणनीति के रूप में जिज्ञासा-संचालित अन्वेषण (सीडीई) ढांचे को प्रस्तुत करना
◦
अभिनेता और आलोचक जिज्ञासा संकेतों का लाभ उठाते हुए एक उपन्यास अन्वेषण बोनस डिजाइन और सैद्धांतिक विश्लेषण।
◦
AIME बेंचमार्क में मौजूदा RLVR पर प्रदर्शन सुधार का प्रयोगात्मक सत्यापन किया गया।
◦
आरएलवीआर के क्षतिपूर्ति पतन तंत्र के विश्लेषण के माध्यम से एलएलएम विफलता मोड की समझ को बढ़ाना।
•
Limitations:
◦
प्रस्तावित विधि के प्रदर्शन सुधार AIME बेंचमार्क तक सीमित हैं। अन्य बेंचमार्क और कार्यों के लिए सामान्यीकरण की आवश्यकता है।
◦
जिज्ञासा संकेतों को परिभाषित करने और स्थापित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
◦
क्षतिपूर्ति पतन तंत्र का अधिक गहन विश्लेषण तथा समाधान की आवश्यकता है।