यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र सुदृढीकरण अधिगम (RL) का उपयोग करके बड़े पैमाने के भाषा मॉडलों (LLM) के अनुमान प्रदर्शन को बेहतर बनाने पर शोध की विश्वसनीयता पर चर्चा करता है। हालाँकि पिछले शोधों ने Qwen2.5 मॉडल परिवार में यादृच्छिक या गलत पुरस्कार संकेतों के साथ भी प्रदर्शन में सुधार प्रदर्शित किया है, हम बताते हैं कि MATH-500, AMC और AIME जैसे बेंचमार्क में डेटा संदूषण की संभावना के कारण यह अविश्वसनीय हो सकता है। इसलिए, हम एक नया डेटासेट, RandomCalculation प्रस्तुत करते हैं, जो मनमाने लंबाई और कठिनाई के पूरी तरह से स्वच्छ अंकगणितीय प्रश्न उत्पन्न करता है। इस डेटासेट का उपयोग करके, हम प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही मॉडलों के गणितीय अनुमान प्रदर्शन को बेहतर बनाते हैं। हम MATH-500 और RandomCalculation बेंचमार्क के बीच देखे गए प्रदर्शन अंतरों का गहन विश्लेषण भी करते हैं, और प्रस्ताव करते हैं कि भविष्य के शोध में अदूषित बेंचमार्क का उपयोग किया जाना चाहिए और मॉडल परिवारों की एक विस्तृत श्रृंखला का परीक्षण किया जाना चाहिए।
Takeaways, Limitations
•
Takeaways:
◦
सुदृढीकरण सीखने का उपयोग करके एलएलएम की अनुमान क्षमता में सुधार करने पर किए गए एक अध्ययन से डेटा संदूषण की गंभीरता का पता चला।
◦
हम डेटा संदूषण के बिना एक नया बेंचमार्क रैंडमकैलकुलेशन प्रस्तुत करते हैं।
◦
हम यह प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही LLM की गणितीय तर्क क्षमता को बढ़ाते हैं।
◦
भावी अनुसंधान के लिए एक विश्वसनीय मूल्यांकन पद्धति प्रस्तुत करना (अदूषित बेंचमार्क का उपयोग करना और विविध मॉडल परिवारों का परीक्षण करना)।
•
Limitations:
◦
रैंडमकैलकुलेशन डेटासेट एक विशिष्ट डोमेन (अंकगणितीय समस्याओं) तक सीमित है।
◦
विश्लेषण में प्रयुक्त मॉडल Qwen2.5 श्रृंखला पर केंद्रित था, जिसके सामान्यीकरण पर आगे अनुसंधान की आवश्यकता थी।
◦
अन्य प्रकार के पुरस्कार संकेतों या सुदृढीकरण सीखने के तरीकों के लिए सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।