यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र मानव-प्रतिक्रिया-आधारित सुदृढीकरण अधिगम (RLHF) की उच्च लागत और बड़े पैमाने के भाषा मॉडल (LLM) को उपयोगकर्ता की प्राथमिकताओं के अनुरूप बनाने की प्रक्रिया में AI प्रतिक्रिया के सीमित सामान्यीकरण को संबोधित करने के लिए, RLTHF, एक मानव-AI हाइब्रिड ढाँचा प्रस्तावित करता है। RLTHF, LLM-आधारित प्रारंभिक संरेखण को चुनिंदा मानव टिप्पणियों के साथ जोड़कर, न्यूनतम प्रयास से पूर्ण मानव-टिप्पणी संरेखण प्राप्त करता है। यह LLM द्वारा गलत वर्गीकृत किए गए चुनौतीपूर्ण नमूनों की पहचान करने के लिए पुरस्कार मॉडल के पुरस्कार वितरण का उपयोग करता है और रणनीतिक मानव सुधारों को शामिल करते हुए LLM द्वारा सही ढंग से वर्गीकृत नमूनों का लाभ उठाकर संरेखण में सुधार करता है। HH-RLHF और TL;DR डेटासेट पर मूल्यांकन परिणाम दर्शाते हैं कि RLTHF केवल 6-7% मानव-टिप्पणी कार्यों के साथ पूर्ण मानव-टिप्पणी संरेखण प्राप्त करता है। इसके अलावा, RLTHF के क्यूरेटेड डेटासेट पर प्रशिक्षित मॉडल, उप-कार्यों पर पूर्ण मानव-टिप्पणी डेटासेट पर प्रशिक्षित मॉडलों से बेहतर प्रदर्शन करते हैं, जो RLTHF की प्रभावशीलता को उजागर करता है।
Takeaways, Limitations
•
Takeaways:
◦
आरएलएचएफ की उच्च लागत को प्रभावी ढंग से संबोधित करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
◦
न्यूनतम मानवीय प्रयास से उच्च स्तरीय मॉडल संरेखण प्राप्त करना।
◦
आरएलटीएचएफ से प्रशिक्षित मॉडल, मौजूदा पूर्णतः एनोटेट डेटा पर आधारित मॉडल से बेहतर प्रदर्शन करते हैं।
◦
एक संकर दृष्टिकोण की प्रभावशीलता का प्रदर्शन करना जो एलएलएम की शक्तियों को मानव विशेषज्ञता के साथ प्रभावी ढंग से जोड़ता है।
•
Limitations:
◦
आरएलटीएचएफ का प्रदर्शन पुरस्कार मॉडल की सटीकता पर निर्भर हो सकता है। पुरस्कार मॉडल के प्रदर्शन में कमी से आरएलटीएचएफ की दक्षता में कमी आ सकती है।
◦
चूंकि मूल्यांकन परिणाम सीमित डेटासेट (HH-RLHF, TL;DR) से हैं, इसलिए अन्य डेटासेट या कार्यों के लिए सामान्यीकरण प्रदर्शन निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
इस बात का विस्तृत विश्लेषण नहीं है कि एलएलएम द्वारा किस प्रकार की त्रुटियां की जाती हैं और कौन सी त्रुटियों को मनुष्यों द्वारा सुधारा जाता है।
◦
आरएलटीएचएफ की चयनात्मक मानव एनोटेशन रणनीति को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता है।