यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना
Created by
Haebom
लेखक
जियाहुई ली, लिन ली, ताई-वेई चांग, कुन कुआंग, लॉन्ग चेन, जून झोउ, चेंग यांग
रूपरेखा
यह शोधपत्र मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF) का उपयोग करके बड़े पैमाने के भाषा मॉडल (LLM) को मानवीय प्राथमिकताओं के साथ संरेखित करने की एक विधि प्रस्तावित करता है। पारंपरिक RLHF पूरे आउटपुट अनुक्रम को एक ही पुरस्कार प्रदान करता है, जो एक ऐसी सीमा है जो व्यक्तिगत टोकन के योगदान को रोकती है। इस समस्या के समाधान के लिए, यह शोधपत्र पुरस्कार पुनर्वितरण (RED) का प्रस्ताव करता है, जो एक नवीन विधि है जो मौजूदा पुरस्कार मॉडल का लाभ उठाकर प्रत्येक टोकन के लिए पुरस्कारों का पुनर्वितरण करती है। RED मौजूदा पुरस्कार मॉडल को संशोधित किए बिना या अतिरिक्त प्रशिक्षण चरणों की आवश्यकता के बिना टोकन स्तर पर सूक्ष्म पुरस्कार प्रदान करके LLM के प्रदर्शन को बेहतर बनाता है। विभिन्न डेटासेट और कार्यों पर प्रायोगिक परिणाम RED की श्रेष्ठता को प्रदर्शित करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
हमारा लक्ष्य मौजूदा आरएलएचएफ, Limitations की एकल क्षतिपूर्ति पद्धति में सुधार करके एलएलएम के प्रदर्शन में सुधार करना है।
◦
टोकन इकाइयों में विस्तृत पुरस्कारों के माध्यम से एलएलएम की भाषाई बारीकियों की अपनी समझ को बढ़ाएं।
◦
यह मौजूदा पुरस्कार मॉडल को संशोधित किए बिना प्रभावी प्रदर्शन सुधार प्राप्त करता है और कम्प्यूटेशनल लागत को न्यूनतम करता है।
◦
विभिन्न डेटासेट और कार्यों पर उत्कृष्ट प्रदर्शन प्रदर्शित करता है।
•
Limitations:
◦
प्रस्तावित RED पद्धति के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
◦
यह केवल कुछ प्रकार के मुआवज़ा मॉडल पर ही लागू हो सकता है।
◦
टोकन-स्तरीय पुरस्कार वितरण पद्धति को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।