दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल के लिए समापन के बाद सीखना

Created by
  • Haebom

लेखक

जियांग फी, सिक्की वांग, शू वेई, युक्सियांग नी, वेई शि, हाओ फेंग, चाओ फेंग, कैन हुआंग

रूपरेखा

यह पत्र पोस्ट-कम्प्लीशन लर्निंग (PCL) का प्रस्ताव करता है, जो एक नया लर्निंग फ्रेमवर्क है जो मॉडल आउटपुट पूरा होने के बाद अनुक्रम स्थान का उपयोग करता है, ताकि टर्मिनल टोकन ( ) पर समाप्त होने वाले मौजूदा भाषा मॉडल प्रशिक्षण की सीमा को पार किया जा सके। PCL मॉडल के आउटपुट को पूरा करने के बाद भी आत्म-मूल्यांकन और इनाम की भविष्यवाणियों को उत्पन्न करना जारी रखते हुए अनुमान और आत्म-मूल्यांकन क्षमताओं को बढ़ाता है, जबकि समापन बिंदु पर रुककर कुशल अनुमान बनाए रखता है। यह एक व्हाइट-बॉक्स सुदृढीकरण सीखने की विधि के माध्यम से हासिल किया जाता है, जहां मॉडल इनाम के नियमों के अनुसार आउटपुट का मूल्यांकन करता है और इनाम फ़ंक्शन के साथ संरेखित करके स्कोर की निगरानी करता है। अनुमान और मूल्यांकन दोनों क्षमताओं को अनुकूलित करने के लिए, हम दोहरे-ट्रैक SFT को लागू करते हैं

Takeaways, Limitations

Takeaways:
पीसीएल प्रस्तुत है, एक नया ढांचा जो मौजूदा भाषा मॉडल सीखने की सीमाओं पर काबू पाता है।
मॉडल की तर्क और आत्म-मूल्यांकन क्षमताओं में सुधार
कुशल अनुमान बनाए रखते हुए आउटपुट गुणवत्ता में सुधार करें
एसएफटी और आरएल की शक्तियों को संयोजित करने वाली एक बहु-उद्देश्यीय हाइब्रिड अनुकूलन विधि प्रस्तुत की गई है।
विविध डेटासेट और मॉडलों में लगातार प्रदर्शन सुधार
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
परिणाम केवल विशिष्ट डेटासेट और मॉडल के लिए प्रस्तुत किए जाते हैं, जिसके लिए व्यापक प्रयोग की आवश्यकता होती है।
व्हाइट-बॉक्स सुदृढीकरण सीखने के तरीकों की जटिलता और कम्प्यूटेशनल लागत पर विचार किया जाना चाहिए।
पुरस्कार फ़ंक्शन डिज़ाइन और अनुकूलन मुद्दों की व्यक्तिपरकता पर आगे अनुसंधान की आवश्यकता है।
👍