दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लंबाई-जागरूक अनुकूलन के माध्यम से तर्क मॉडल के लिए कुशल आरएल प्रशिक्षण

Created by
  • Haebom

लेखक

डानलोंग युआन, तियान झी, शाओहान हुआंग, झुओचेंग गोंग, हुइशुई झांग, चोंग लुओ, फुरु वेई, डोंगयान झाओ

रूपरेखा

यह शोधपत्र एक नवीन विधि प्रस्तावित करता है जो ओपनएआई O1 और डीपसीक R1 जैसे बड़े पैमाने के अनुमान मॉडलों की स्मृति और समय की खपत संबंधी समस्याओं का समाधान करने के लिए सुदृढीकरण अधिगम प्रक्रिया में तीन पुरस्कार संरचनाओं को एकीकृत करती है। मौजूदा विधियों के विपरीत, जो अतिरिक्त प्रशिक्षण डेटा और चरणों को शामिल करके अनुमान पथ को छोटा कर देती हैं, हमारी विधि अतिरिक्त प्रशिक्षण चरणों के बिना प्रतिक्रिया अवधि को कम करती है। प्रस्तावित विधि दर्शाती है कि तार्किक तर्क और गणितीय समस्या समाधान में, प्रदर्शन को बनाए रखते हुए या सुधारते हुए, प्रतिक्रिया अवधि को क्रमशः 40% और 33% तक कम किया जा सकता है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर अनुमान मॉडल की प्रतिक्रिया लंबाई को प्रभावी ढंग से कम करने के लिए एक नवीन विधि प्रस्तुत की गई है।
प्रदर्शन में गिरावट और अतिरिक्त प्रशिक्षण डेटा या चरणों के बिना प्रतिक्रिया की लंबाई कम करें।
इसके साथ ही तार्किक तर्क और गणितीय समस्या समाधान में प्रदर्शन में सुधार और प्रतिक्रिया की लंबाई में कमी प्राप्त करें।
Limitations:
प्रस्तावित पुरस्कार डिजाइन की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार की अनुमान समस्याओं के लिए अधिक प्रयोगात्मक परिणामों की आवश्यकता है।
ऐसी संभावना है कि परिणाम विशिष्ट मॉडलों और डेटासेट तक ही सीमित हों।
👍