दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्काईवर्क-रिवॉर्ड-V2: मानव-AI तालमेल के माध्यम से वरीयता डेटा क्यूरेशन को बढ़ाना

Created by
  • Haebom

लेखक

क्रिस युहाओ लियू, लियांग ज़ेंग, युज़ेन जिओ, जूजी हे, जियाकाई लियू, चाओजी वांग, रुई यान, वेई शेन, फुक्सियांग झांग, जियाचेंग जू, यांग लियू, याहुई झोउ

रूपरेखा

यह पत्र इस मुद्दे को संबोधित करता है कि मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने में इनाम मॉडल (RM) के महत्व के बावजूद, मौजूदा अत्याधुनिक ओपन RM अधिकांश मूल्यांकन बेंचमार्क में खराब प्रदर्शन करते हैं। हम मानते हैं कि यह मौजूदा वरीयता डेटासेट की सीमाओं के कारण है, जैसे सीमित दायरा, कृत्रिम रूप से लेबल किया गया डेटा और कठोर गुणवत्ता नियंत्रण की कमी। इसे संबोधित करने के लिए, हम SynPref-40M प्रस्तुत करते हैं, जो 40 मिलियन वरीयता जोड़े से युक्त एक बड़े पैमाने पर वरीयता डेटासेट है। हम दो-चरणीय पाइपलाइन डिजाइन करके डेटा क्यूरेशन करते हैं जो मानव एनोटेशन की गुणवत्ता को AI की मापनीयता के साथ जोड़ती है। इस तरह, मानव सत्यापित एनोटेशन प्रदान करते हैं, और बड़े पैमाने पर भाषा मॉडल मानव मार्गदर्शन में स्वचालित क्यूरेशन करते हैं। स्काईवर्क-रिवॉर्ड-वी2 मानव वरीयता संरेखण, लक्ष्य सटीकता, सुरक्षा, शैली पूर्वाग्रह प्रतिरोध और इष्टतम एन स्केलिंग सहित कई प्रकार की विशेषताओं पर अत्याधुनिक प्रदर्शन प्राप्त करता है। प्रायोगिक परिणाम बताते हैं कि इस अध्ययन की प्रभावशीलता न केवल डेटा आकार के कारण है, बल्कि उच्च गुणवत्ता वाले क्यूरेशन के कारण भी है। स्काईवर्क-रिवॉर्ड-वी2 ओपन रिवॉर्ड मॉडल के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, और यह दर्शाता है कि मानव-एआई क्यूरेशन तालमेल डेटा की गुणवत्ता को बेहतर बनाने में योगदान देता है।

Takeaways, Limitations

Takeaways:
हम एक बड़े पैमाने पर, उच्च गुणवत्ता वाले वरीयता डेटासेट (SynPref-40M) का निर्माण करते हैं और एक प्रभावी मानव-AI सहयोग-आधारित डेटा क्यूरेशन पाइपलाइन प्रस्तुत करते हैं।
हम स्काईवर्क-रिवार्ड-वी2 मॉडल प्रस्तुत करते हैं, जो मौजूदा ओपन रिवार्ड मॉडल की प्रदर्शन सीमाओं को पार करता है और विभिन्न बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करता है।
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि पुरस्कार मॉडल के प्रदर्शन को बेहतर बनाने में डेटा का आकार और गुणवत्ता दोनों ही महत्वपूर्ण कारक हैं।
मानव-एआई सहयोग के माध्यम से डेटा संरक्षण की उपयोगिता का प्रदर्शन करना।
Limitations:
SynPref-40M डाटासेट की संरचना और वरीयता युग्मों की विविधता के बारे में विस्तृत विवरण का अभाव।
स्काईवर्क-रिवॉर्ड-V2 मॉडल के सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
कुछ बेंचमार्कों के लिए संभावित ओवरफिटिंग।
मानव-एआई सहयोगी पाइपलाइनों की मापनीयता और सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
👍