दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अन्वेषण की अड़चन को तोड़ना: सामान्य एलएलएम तर्क के लिए रूब्रिक-स्कैफोल्डेड सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

यांग झोउ, सुंझू ली, शुन्यू लियू, वेनकाई फेंग, जियाल झाओ, जिंगवेन यांग, जियानवेई लव, कोंगचेंग झांग, यिहे झोउ, हेंगटोंग लू, वेई चेन, यान झी, मिंगली सॉन्ग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की अनुमान क्षमता में सुधार के लिए सुदृढीकरण अधिगम (आरएल) का लाभ उठाने की एक विधि प्रस्तुत करता है। मौजूदा आरएल-आधारित एलएलएम प्रशिक्षण उच्च-गुणवत्ता वाले नमूनों पर निर्भर करता है, लेकिन एलएलएम की अंतर्निहित सीमाएँ इन नमूनों के अन्वेषण को सीमित करती हैं। इस समस्या के समाधान के लिए, यह शोधपत्र एक नवीन ढाँचे, रूब्रिक-स्कैफोल्डेड सुदृढीकरण अधिगम (रुस्काआरएल) का प्रस्ताव करता है। रुस्काआरएल, रोलआउट निर्माण चरण के दौरान विविध, उच्च-गुणवत्ता वाली प्रतिक्रियाओं को प्रेरित करने के लिए चेकलिस्ट-शैली के रूब्रिक का उपयोग करता है और मॉडल प्रशिक्षण चरण के दौरान रूब्रिक के आधार पर विश्वसनीय पुरस्कार प्रदान करता है। परिणामस्वरूप, रुस्काआरएल विभिन्न बेंचमार्क पर मौजूदा विधियों से बेहतर प्रदर्शन करता है। विशेष रूप से, यह हेल्थबेंच-500 पर Qwen2.5-7B-Instruct के प्रदर्शन को 23.6 से 50.3 तक और Qwen3-30B-A3B-Instruct के प्रदर्शन को 61.1 तक सुधारता है, जो GPT-4.1 और OpenAI-o3 से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम दर्शाते हैं कि एलएलएम की तर्क क्षमता को चेकलिस्ट-शैली रूब्रिक का उपयोग करके सुदृढीकरण सीखने के ढांचे (रुस्काआरएल) के माध्यम से प्रभावी ढंग से सुधारा जा सकता है।
विभिन्न बेंचमार्क पर अत्याधुनिक प्रदर्शन हासिल किया, विशेष रूप से हेल्थबेंच-500 पर GPT-4.1 से बेहतर प्रदर्शन किया।
रूब्रिक-आधारित अन्वेषण और पुरस्कार रणनीतियाँ एलएलएम की तर्क क्षमता में सुधार के लिए एक प्रभावी पद्धति प्रस्तुत करती हैं।
Limitations:
अनुसंधान अभी प्रगति पर है, तथा कोड, मॉडल और डेटासेट बाद में जारी किये जायेंगे।
रूब्रिक डिज़ाइन की गुणवत्ता से प्रदर्शन पर महत्वपूर्ण प्रभाव पड़ सकता है। रूब्रिक डिज़ाइन के लिए विस्तृत विवरण और दिशानिर्देशों का अभाव है।
विभिन्न प्रकार की अनुमान समस्याओं के लिए सामान्यीकरण प्रदर्शन मूल्यांकन का अभाव।
👍