यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की अनुमान क्षमता में सुधार के लिए सुदृढीकरण अधिगम (आरएल) का लाभ उठाने की एक विधि प्रस्तुत करता है। मौजूदा आरएल-आधारित एलएलएम प्रशिक्षण उच्च-गुणवत्ता वाले नमूनों पर निर्भर करता है, लेकिन एलएलएम की अंतर्निहित सीमाएँ इन नमूनों के अन्वेषण को सीमित करती हैं। इस समस्या के समाधान के लिए, यह शोधपत्र एक नवीन ढाँचे, रूब्रिक-स्कैफोल्डेड सुदृढीकरण अधिगम (रुस्काआरएल) का प्रस्ताव करता है। रुस्काआरएल, रोलआउट निर्माण चरण के दौरान विविध, उच्च-गुणवत्ता वाली प्रतिक्रियाओं को प्रेरित करने के लिए चेकलिस्ट-शैली के रूब्रिक का उपयोग करता है और मॉडल प्रशिक्षण चरण के दौरान रूब्रिक के आधार पर विश्वसनीय पुरस्कार प्रदान करता है। परिणामस्वरूप, रुस्काआरएल विभिन्न बेंचमार्क पर मौजूदा विधियों से बेहतर प्रदर्शन करता है। विशेष रूप से, यह हेल्थबेंच-500 पर Qwen2.5-7B-Instruct के प्रदर्शन को 23.6 से 50.3 तक और Qwen3-30B-A3B-Instruct के प्रदर्शन को 61.1 तक सुधारता है, जो GPT-4.1 और OpenAI-o3 से बेहतर प्रदर्शन करता है।
Takeaways, Limitations
•
Takeaways:
◦
हम दर्शाते हैं कि एलएलएम की तर्क क्षमता को चेकलिस्ट-शैली रूब्रिक का उपयोग करके सुदृढीकरण सीखने के ढांचे (रुस्काआरएल) के माध्यम से प्रभावी ढंग से सुधारा जा सकता है।
◦
विभिन्न बेंचमार्क पर अत्याधुनिक प्रदर्शन हासिल किया, विशेष रूप से हेल्थबेंच-500 पर GPT-4.1 से बेहतर प्रदर्शन किया।
◦
रूब्रिक-आधारित अन्वेषण और पुरस्कार रणनीतियाँ एलएलएम की तर्क क्षमता में सुधार के लिए एक प्रभावी पद्धति प्रस्तुत करती हैं।
•
Limitations:
◦
अनुसंधान अभी प्रगति पर है, तथा कोड, मॉडल और डेटासेट बाद में जारी किये जायेंगे।
◦
रूब्रिक डिज़ाइन की गुणवत्ता से प्रदर्शन पर महत्वपूर्ण प्रभाव पड़ सकता है। रूब्रिक डिज़ाइन के लिए विस्तृत विवरण और दिशानिर्देशों का अभाव है।
◦
विभिन्न प्रकार की अनुमान समस्याओं के लिए सामान्यीकरण प्रदर्शन मूल्यांकन का अभाव।