दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना

Created by
  • Haebom

लेखक

जियाहुई ली, लिन ली, ताई-वेई चांग, ​​कुन कुआंग, लॉन्ग चेन, जून झोउ, चेंग यांग

रूपरेखा

यह शोधपत्र मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF) का उपयोग करके बड़े पैमाने के भाषा मॉडल (LLM) को मानवीय प्राथमिकताओं के साथ संरेखित करने की एक विधि प्रस्तावित करता है। पारंपरिक RLHF पूरे आउटपुट अनुक्रम को एक ही पुरस्कार प्रदान करता है, जो एक ऐसी सीमा है जो व्यक्तिगत टोकन के योगदान को रोकती है। इस समस्या के समाधान के लिए, यह शोधपत्र पुरस्कार पुनर्वितरण (RED) का प्रस्ताव करता है, जो एक नवीन विधि है जो मौजूदा पुरस्कार मॉडल का लाभ उठाकर प्रत्येक टोकन के लिए पुरस्कारों का पुनर्वितरण करती है। RED मौजूदा पुरस्कार मॉडल को संशोधित किए बिना या अतिरिक्त प्रशिक्षण चरणों की आवश्यकता के बिना टोकन स्तर पर सूक्ष्म पुरस्कार प्रदान करके LLM के प्रदर्शन को बेहतर बनाता है। विभिन्न डेटासेट और कार्यों पर प्रायोगिक परिणाम RED की श्रेष्ठता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हमारा लक्ष्य मौजूदा आरएलएचएफ, Limitations की एकल क्षतिपूर्ति पद्धति में सुधार करके एलएलएम के प्रदर्शन में सुधार करना है।
टोकन इकाइयों में विस्तृत पुरस्कारों के माध्यम से एलएलएम की भाषाई बारीकियों की अपनी समझ को बढ़ाएं।
यह मौजूदा पुरस्कार मॉडल को संशोधित किए बिना प्रभावी प्रदर्शन सुधार प्राप्त करता है और कम्प्यूटेशनल लागत को न्यूनतम करता है।
विभिन्न डेटासेट और कार्यों पर उत्कृष्ट प्रदर्शन प्रदर्शित करता है।
Limitations:
प्रस्तावित RED पद्धति के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
यह केवल कुछ प्रकार के मुआवज़ा मॉडल पर ही लागू हो सकता है।
टोकन-स्तरीय पुरस्कार वितरण पद्धति को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
👍