दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रशिक्षण के बाद बड़े भाषा मॉडल के एकीकृत दृष्टिकोण की ओर

Created by
  • Haebom

लेखक

जिंगताई लव, युक्सिन ज़ुओ, यूबैंग सन, होंग्यी लियू, युंटियन वेई, ज़ेकाई चेन, लिक्सुआन हे, ज़ुएकाई झू, कैयान झांग, बिंगनिंग वांग, निंग डिंग, बोवेन झोउ

रूपरेखा

यह शोधपत्र आधुनिक भाषा मॉडलों के लिए पोस्ट-लर्निंग प्रशिक्षण डेटा के दो प्रमुख स्रोतों पर चर्चा करता है: ऑनलाइन डेटा (मॉडल निर्माण रोलआउट) और ऑफलाइन डेटा (मानव या अन्य मॉडल प्रदर्शन)। सुदृढीकरण अधिगम (RL) और पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) जैसे दृष्टिकोण, इन दोनों प्रकार के डेटा का उपयोग करते हैं। यह शोधपत्र दर्शाता है कि ये दृष्टिकोण परस्पर विरोधी नहीं हैं, बल्कि एक ही अनुकूलन प्रक्रिया के उदाहरण हैं। हम एक एकीकृत नीति प्रवणता अनुमानक प्राप्त करते हैं और विभिन्न डेटा वितरण मान्यताओं और पूर्वाग्रह-प्रसरण समझौतों के तहत एक सामान्य उद्देश्य के प्रवणता के रूप में एक व्यापक पोस्ट-लर्निंग दृष्टिकोण की गणना प्रस्तुत करते हैं। इस प्रवणता अनुमानक में चार विनिमेय भाग होते हैं: एक स्थिरीकरण मास्क, एक संदर्भ नीति हर, एक लाभ अनुमानक, और एक संभावना प्रवणता। सैद्धांतिक निष्कर्षों के आधार पर, यह शोधपत्र हाइब्रिड पोस्ट-लर्निंग (HPT) का प्रस्ताव करता है, जो एक ऐसा एल्गोरिथम है जो गतिशील रूप से प्रशिक्षण संकेतों का चयन करता है। HPT को सीखे गए अनुमान पैटर्न का त्याग किए बिना प्रदर्शनों के प्रभावी उपयोग और सुदृढ़ अन्वेषण, दोनों प्रदान करने के लिए डिज़ाइन किया गया है। यह शोधपत्र एकीकृत सैद्धांतिक ढाँचे और एचपीटी की प्रभावशीलता को प्रमाणित करने के लिए व्यापक प्रयोगात्मक और पृथक्करण अध्ययन प्रस्तुत करता है। छह गणितीय अनुमान मानकों और दो वितरणात्मक आउटलायर्स में, एचपीटी विभिन्न मॉडल आकारों और वर्गों में मज़बूत आधारभूत मॉडलों से लगातार बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम एकल अनुकूलन ढांचा प्रस्तुत करके सैद्धांतिक समझ को बढ़ाते हैं जो प्रशिक्षण के बाद के दृष्टिकोणों (जैसे, आरएल, एसएफटी) को एकीकृत करता है।
हम एक प्रभावी हाइब्रिड पोस्ट-ट्रेनिंग (एचपीटी) एल्गोरिदम का प्रस्ताव करते हैं जो एक साथ डेमो उपयोग और स्थिर अन्वेषण को प्राप्त करता है।
हमने विभिन्न मानदंडों पर एचपीटी के बेहतर प्रदर्शन को प्रयोगात्मक रूप से सत्यापित किया।
इसने मॉडल आकार और श्रृंखला की परवाह किए बिना लगातार प्रदर्शन में सुधार दिखाया।
Limitations:
प्रस्तावित एचपीटी एल्गोरिथम के इष्टतम मापदंडों को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
विभिन्न प्रकार के भाषा मॉडल और कार्यों में सामान्यीकरण प्रदर्शन का आगे सत्यापन आवश्यक है।
एचपीटी की कम्प्यूटेशनल लागत और दक्षता का विस्तृत विश्लेषण आवश्यक हो सकता है।
👍