दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रिवॉर्डएनीथिंग: सामान्यीकृत सिद्धांत-अनुसरण वाले पुरस्कार मॉडल

Created by
  • Haebom

लेखक

ज़ुओहाओ यू, जियाली ज़ेंग, वेइज़ेंग गु, यिडोंग वांग, जिंदोंग वांग, फ़ैनडोंग मेंग, जी झोउ, यू झांग, शिकुन झांग, वेई ये

रूपरेखा

यह शोधपत्र रिवॉर्ड मॉडल (RM) के __T30461_____ को इंगित करता है, जो बड़े पैमाने पर भाषा मॉडल (LLM) अनुकूलन के लिए आवश्यक है, और इसे दूर करने के लिए एक नया दृष्टिकोण प्रस्तुत करता है। मौजूदा RM में यह समस्या है कि उन्हें निश्चित वरीयता डेटासेट के साथ प्रशिक्षित किया जाता है और वे विभिन्न वास्तविक दुनिया की आवश्यकताओं के अनुकूल नहीं हो सकते हैं। इस शोधपत्र में, हम एक सामान्यीकृत RM का प्रस्ताव करते हैं जो प्राकृतिक भाषा में व्यक्त किए गए रिवॉर्ड सिद्धांतों को गतिशील रूप से समझता है और उनका पालन करता है। इस उद्देश्य के लिए, हम विभिन्न सिद्धांतों के लिए सामान्यीकरण क्षमता का मूल्यांकन करने के लिए एक नया बेंचमार्क RABench विकसित करते हैं, और RewardAnything प्रस्तुत करते हैं, एक नया RM जो स्पष्ट रूप से प्राकृतिक भाषा सिद्धांतों का पालन करने के लिए डिज़ाइन और प्रशिक्षित किया गया है। RewardAnything मौजूदा RM बेंचमार्क पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, और RABench पर नए सिद्धांतों के लिए उत्कृष्ट अनुकूलनशीलता भी दिखाता है। इसके अलावा, RewardAnything को मौजूदा RLHF विधियों के साथ सहजता से एकीकृत किया जा सकता है, और हम एक केस स्टडी के माध्यम से प्रदर्शित करते हैं कि केवल प्राकृतिक भाषा सिद्धांतों का उपयोग करके LLM को स्वचालित रूप से और कुशलतापूर्वक कैसे संरेखित किया जाए।

____T30462_____, ____T30463_____

Takeaways:
एक सामान्यीकृत पुरस्कार मॉडल (रिवार्डएनीथिंग) प्रस्तुत करना जो प्राकृतिक भाषा में व्यक्त पुरस्कार सिद्धांतों का पालन करता है
मौजूदा आरएम की सामान्यीकरण क्षमता की कमी की समस्या का खुलासा करना और एक नया बेंचमार्क RABench विकसित करना
केवल प्राकृतिक भाषा सिद्धांतों के आधार पर एलएलएम को कुशलतापूर्वक क्रमबद्ध करने की एक नई विधि
मौजूदा आरएलएचएफ विधियों के साथ निर्बाध एकीकरण की संभावना की पुष्टि
केवल सुपरिभाषित सिद्धांतों को बताकर मौजूदा आरएम बेंचमार्क पर शीर्ष प्रदर्शन प्राप्त करना
Limitations:
RABench की बहुमुखी प्रतिभा और प्रतिनिधित्व क्षमता के अतिरिक्त सत्यापन की आवश्यकता है
यह निर्धारित करने के लिए अतिरिक्त प्रयोगों की आवश्यकता है कि क्या रिवार्डएनीथिंग सभी स्थितियों में अच्छा प्रदर्शन करता है।
प्राकृतिक भाषा सिद्धांतों में अस्पष्टता या टकराव से निपटने के तरीके पर और अधिक शोध की आवश्यकता है।
👍