RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना

Created by

Haebom

लेखक

जियाहुई ली, लिन ली, ताई-वेई चांग, कुन कुआंग, लॉन्ग चेन, जून झोउ, चेंग यांग

रूपरेखा

यह शोधपत्र मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF) का उपयोग करके बड़े पैमाने के भाषा मॉडल (LLM) को मानवीय प्राथमिकताओं के साथ संरेखित करने की एक विधि प्रस्तावित करता है। पारंपरिक RLHF पूरे आउटपुट अनुक्रम को एक ही पुरस्कार प्रदान करता है, जो एक ऐसी सीमा है जो व्यक्तिगत टोकन के योगदान को रोकती है। इस समस्या के समाधान के लिए, यह शोधपत्र पुरस्कार पुनर्वितरण (RED) का प्रस्ताव करता है, जो एक नवीन विधि है जो मौजूदा पुरस्कार मॉडल का लाभ उठाकर प्रत्येक टोकन के लिए पुरस्कारों का पुनर्वितरण करती है। RED मौजूदा पुरस्कार मॉडल को संशोधित किए बिना या अतिरिक्त प्रशिक्षण चरणों की आवश्यकता के बिना टोकन स्तर पर सूक्ष्म पुरस्कार प्रदान करके LLM के प्रदर्शन को बेहतर बनाता है। विभिन्न डेटासेट और कार्यों पर प्रायोगिक परिणाम RED की श्रेष्ठता को प्रदर्शित करते हैं।

Takeaways, Limitations

•

Takeaways:

◦

हमारा लक्ष्य मौजूदा आरएलएचएफ, Limitations की एकल क्षतिपूर्ति पद्धति में सुधार करके एलएलएम के प्रदर्शन में सुधार करना है।

◦

टोकन इकाइयों में विस्तृत पुरस्कारों के माध्यम से एलएलएम की भाषाई बारीकियों की अपनी समझ को बढ़ाएं।

◦

यह मौजूदा पुरस्कार मॉडल को संशोधित किए बिना प्रभावी प्रदर्शन सुधार प्राप्त करता है और कम्प्यूटेशनल लागत को न्यूनतम करता है।

◦

विभिन्न डेटासेट और कार्यों पर उत्कृष्ट प्रदर्शन प्रदर्शित करता है।

•

Limitations:

◦

प्रस्तावित RED पद्धति के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।

◦

यह केवल कुछ प्रकार के मुआवज़ा मॉडल पर ही लागू हो सकता है।

◦

टोकन-स्तरीय पुरस्कार वितरण पद्धति को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना

लेखक

रूपरेखा

Takeaways, Limitations