लंबाई-जागरूक अनुकूलन के माध्यम से तर्क मॉडल के लिए कुशल आरएल प्रशिक्षण

Created by

Haebom

लेखक

डानलोंग युआन, तियान झी, शाओहान हुआंग, झुओचेंग गोंग, हुइशुई झांग, चोंग लुओ, फुरु वेई, डोंगयान झाओ

रूपरेखा

यह शोधपत्र एक नवीन विधि प्रस्तावित करता है जो ओपनएआई O1 और डीपसीक R1 जैसे बड़े पैमाने के अनुमान मॉडलों की स्मृति और समय की खपत संबंधी समस्याओं का समाधान करने के लिए सुदृढीकरण अधिगम प्रक्रिया में तीन पुरस्कार संरचनाओं को एकीकृत करती है। मौजूदा विधियों के विपरीत, जो अतिरिक्त प्रशिक्षण डेटा और चरणों को शामिल करके अनुमान पथ को छोटा कर देती हैं, हमारी विधि अतिरिक्त प्रशिक्षण चरणों के बिना प्रतिक्रिया अवधि को कम करती है। प्रस्तावित विधि दर्शाती है कि तार्किक तर्क और गणितीय समस्या समाधान में, प्रदर्शन को बनाए रखते हुए या सुधारते हुए, प्रतिक्रिया अवधि को क्रमशः 40% और 33% तक कम किया जा सकता है।

Takeaways, Limitations

•

Takeaways:

◦

बड़े पैमाने पर अनुमान मॉडल की प्रतिक्रिया लंबाई को प्रभावी ढंग से कम करने के लिए एक नवीन विधि प्रस्तुत की गई है।

◦

प्रदर्शन में गिरावट और अतिरिक्त प्रशिक्षण डेटा या चरणों के बिना प्रतिक्रिया की लंबाई कम करें।

◦

इसके साथ ही तार्किक तर्क और गणितीय समस्या समाधान में प्रदर्शन में सुधार और प्रतिक्रिया की लंबाई में कमी प्राप्त करें।

•

Limitations:

◦

प्रस्तावित पुरस्कार डिजाइन की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।

◦

विभिन्न प्रकार की अनुमान समस्याओं के लिए अधिक प्रयोगात्मक परिणामों की आवश्यकता है।

◦

ऐसी संभावना है कि परिणाम विशिष्ट मॉडलों और डेटासेट तक ही सीमित हों।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

लंबाई-जागरूक अनुकूलन के माध्यम से तर्क मॉडल के लिए कुशल आरएल प्रशिक्षण

लेखक

रूपरेखा

Takeaways, Limitations