दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सुदृढ़ीकरण सीखने द्वारा जमे हुए एलएलएम को संरेखित करना: एक पुनरावृत्त पुनर्वजन-फिर-अनुकूलन दृष्टिकोण

Created by
  • Haebom

लेखक

ज़िन्नान झांग, चेनलियांग ली, सिलियांग ज़ेंग, जियाज़ियांग ली, झोंग्रुओ वांग, कैक्सियांग लिन, सोंगताओ लू, अल्फ्रेडो गार्सिया, मिंगी होंग

रूपरेखा

इस शोधपत्र में, हम बड़े पैमाने के भाषा मॉडल (LLM) को मानवीय प्राथमिकताओं के अनुसार फिट करने के लिए एक नई विधि, इटेरेटिव रीवेट-दैन-ऑप्टिमाइज़ (IRO) प्रस्तुत करते हैं। पारंपरिक RLHF या DPO के विपरीत, यह सीधे मॉडल मापदंडों को संशोधित नहीं करता है, लेकिन सुदृढीकरण सीखने-आधारित पुरस्कार फ़ंक्शन का उपयोग करके परीक्षण के समय मॉडल आउटपुट की गुणवत्ता में सुधार करता है। IRO एक बेस मॉडल के आउटपुट उम्मीदवारों को पुनरावृत्त रूप से उत्पन्न करता है, उन्हें एक मूल्य फ़ंक्शन का उपयोग करके फिर से नमूना करता है, और एक नया मूल्य फ़ंक्शन सीखता है। परीक्षण के समय, सीखे गए मूल्य फ़ंक्शन का उपयोग अन्वेषण-आधारित अनुकूलन प्रक्रिया के माध्यम से बेस मॉडल की पीढ़ी को निर्देशित करने के लिए किया जाता है। यह उपयोगकर्ताओं को अपने स्वयं के डेटासेट में मॉडल फिट करने की अनुमति देता है, भले ही उनके पास मॉडल वज़न तक पहुँच न हो।

Takeaways, Limitations

Takeaways:
मॉडल पैरामीटर तक पहुंच के बिना एलएलएम को मानवीय प्राथमिकताओं के अनुरूप ढालने की एक नवीन विधि प्रस्तुत की गई है।
परीक्षण के समय मॉडल का बेहतर प्रदर्शन
ओपनएआई के आरएफटी के समान, उपयोगकर्ता डेटासेट का उपयोग करके मॉडल को संरेखित करना संभव है।
Limitations:
मूल्य फ़ंक्शन की अपूर्णता के कारण उप-इष्टतम आउटपुट की संभावना
खोज-आधारित अनुकूलन प्रक्रियाओं के कारण संभावित उच्च अनुमान लागत
यह निर्धारित करने के लिए प्रायोगिक सत्यापन की आवश्यकता है कि मौजूदा आरएलएचएफ या डीपीओ की तुलना में आईआरओ का प्रदर्शन कितना बेहतर है।
👍