दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आरएलटीएचएफ: एलएलएम संरेखण के लिए लक्षित मानव प्रतिक्रिया

Created by
  • Haebom

लेखक

यिफ़ेई जू, तुशेर चक्रवर्ती, एम्रे के मैन, बिबेक आर्यल, एडुआर्डो रोड्रिग्स, श्रीनागेश शर्मा, रॉबर्टो एस्टेवाओ, मारिया एंजल्स डी लुइस बालगुएर, जेसिका वॉक, राफेल पाडिल्हा, लियोनार्डो नून्स, शोबाना बालाकृष्णन, सोंगवु लू, रणवीर चंद्रा

रूपरेखा

यह शोधपत्र मानव-प्रतिक्रिया-आधारित सुदृढीकरण अधिगम (RLHF) की उच्च लागत और बड़े पैमाने के भाषा मॉडल (LLM) को उपयोगकर्ता की प्राथमिकताओं के अनुरूप बनाने की प्रक्रिया में AI प्रतिक्रिया के सीमित सामान्यीकरण को संबोधित करने के लिए, RLTHF, एक मानव-AI हाइब्रिड ढाँचा प्रस्तावित करता है। RLTHF, LLM-आधारित प्रारंभिक संरेखण को चुनिंदा मानव टिप्पणियों के साथ जोड़कर, न्यूनतम प्रयास से पूर्ण मानव-टिप्पणी संरेखण प्राप्त करता है। यह LLM द्वारा गलत वर्गीकृत किए गए चुनौतीपूर्ण नमूनों की पहचान करने के लिए पुरस्कार मॉडल के पुरस्कार वितरण का उपयोग करता है और रणनीतिक मानव सुधारों को शामिल करते हुए LLM द्वारा सही ढंग से वर्गीकृत नमूनों का लाभ उठाकर संरेखण में सुधार करता है। HH-RLHF और TL;DR डेटासेट पर मूल्यांकन परिणाम दर्शाते हैं कि RLTHF केवल 6-7% मानव-टिप्पणी कार्यों के साथ पूर्ण मानव-टिप्पणी संरेखण प्राप्त करता है। इसके अलावा, RLTHF के क्यूरेटेड डेटासेट पर प्रशिक्षित मॉडल, उप-कार्यों पर पूर्ण मानव-टिप्पणी डेटासेट पर प्रशिक्षित मॉडलों से बेहतर प्रदर्शन करते हैं, जो RLTHF की प्रभावशीलता को उजागर करता है।

Takeaways, Limitations

Takeaways:
आरएलएचएफ की उच्च लागत को प्रभावी ढंग से संबोधित करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
न्यूनतम मानवीय प्रयास से उच्च स्तरीय मॉडल संरेखण प्राप्त करना।
आरएलटीएचएफ से प्रशिक्षित मॉडल, मौजूदा पूर्णतः एनोटेट डेटा पर आधारित मॉडल से बेहतर प्रदर्शन करते हैं।
एक संकर दृष्टिकोण की प्रभावशीलता का प्रदर्शन करना जो एलएलएम की शक्तियों को मानव विशेषज्ञता के साथ प्रभावी ढंग से जोड़ता है।
Limitations:
आरएलटीएचएफ का प्रदर्शन पुरस्कार मॉडल की सटीकता पर निर्भर हो सकता है। पुरस्कार मॉडल के प्रदर्शन में कमी से आरएलटीएचएफ की दक्षता में कमी आ सकती है।
चूंकि मूल्यांकन परिणाम सीमित डेटासेट (HH-RLHF, TL;DR) से हैं, इसलिए अन्य डेटासेट या कार्यों के लिए सामान्यीकरण प्रदर्शन निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
इस बात का विस्तृत विश्लेषण नहीं है कि एलएलएम द्वारा किस प्रकार की त्रुटियां की जाती हैं और कौन सी त्रुटियों को मनुष्यों द्वारा सुधारा जाता है।
आरएलटीएचएफ की चयनात्मक मानव एनोटेशन रणनीति को अनुकूलित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍