दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

तर्क या स्मरण? डेटा संदूषण के कारण सुदृढीकरण सीखने के अविश्वसनीय परिणाम

Created by
  • Haebom

लेखक

मिंगकी वू, झिहाओ झांग, क़ियाओले डोंग, झिहेंग शी, जून झाओ, सेन्जी जिन, ज़ियाओरान फैन, युहाओ झोउ, हुइजी लव, मिंग झांग, यानवेई फू, किन लियू, सोंगयांग झांग, क्यूई झांग

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम (RL) का उपयोग करके बड़े पैमाने के भाषा मॉडलों (LLM) के अनुमान प्रदर्शन को बेहतर बनाने पर शोध की विश्वसनीयता पर चर्चा करता है। हालाँकि पिछले शोधों ने Qwen2.5 मॉडल परिवार में यादृच्छिक या गलत पुरस्कार संकेतों के साथ भी प्रदर्शन में सुधार प्रदर्शित किया है, हम बताते हैं कि MATH-500, AMC और AIME जैसे बेंचमार्क में डेटा संदूषण की संभावना के कारण यह अविश्वसनीय हो सकता है। इसलिए, हम एक नया डेटासेट, RandomCalculation प्रस्तुत करते हैं, जो मनमाने लंबाई और कठिनाई के पूरी तरह से स्वच्छ अंकगणितीय प्रश्न उत्पन्न करता है। इस डेटासेट का उपयोग करके, हम प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही मॉडलों के गणितीय अनुमान प्रदर्शन को बेहतर बनाते हैं। हम MATH-500 और RandomCalculation बेंचमार्क के बीच देखे गए प्रदर्शन अंतरों का गहन विश्लेषण भी करते हैं, और प्रस्ताव करते हैं कि भविष्य के शोध में अदूषित बेंचमार्क का उपयोग किया जाना चाहिए और मॉडल परिवारों की एक विस्तृत श्रृंखला का परीक्षण किया जाना चाहिए।

Takeaways, Limitations

Takeaways:
सुदृढीकरण सीखने का उपयोग करके एलएलएम की अनुमान क्षमता में सुधार करने पर किए गए एक अध्ययन से डेटा संदूषण की गंभीरता का पता चला।
हम डेटा संदूषण के बिना एक नया बेंचमार्क रैंडमकैलकुलेशन प्रस्तुत करते हैं।
हम यह प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही LLM की गणितीय तर्क क्षमता को बढ़ाते हैं।
भावी अनुसंधान के लिए एक विश्वसनीय मूल्यांकन पद्धति प्रस्तुत करना (अदूषित बेंचमार्क का उपयोग करना और विविध मॉडल परिवारों का परीक्षण करना)।
Limitations:
रैंडमकैलकुलेशन डेटासेट एक विशिष्ट डोमेन (अंकगणितीय समस्याओं) तक सीमित है।
विश्लेषण में प्रयुक्त मॉडल Qwen2.5 श्रृंखला पर केंद्रित था, जिसके सामान्यीकरण पर आगे अनुसंधान की आवश्यकता थी।
अन्य प्रकार के पुरस्कार संकेतों या सुदृढीकरण सीखने के तरीकों के लिए सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।
👍