यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र एक नवीन विधि प्रस्तावित करता है जो ओपनएआई O1 और डीपसीक R1 जैसे बड़े पैमाने के अनुमान मॉडलों की स्मृति और समय की खपत संबंधी समस्याओं का समाधान करने के लिए सुदृढीकरण अधिगम प्रक्रिया में तीन पुरस्कार संरचनाओं को एकीकृत करती है। मौजूदा विधियों के विपरीत, जो अतिरिक्त प्रशिक्षण डेटा और चरणों को शामिल करके अनुमान पथ को छोटा कर देती हैं, हमारी विधि अतिरिक्त प्रशिक्षण चरणों के बिना प्रतिक्रिया अवधि को कम करती है। प्रस्तावित विधि दर्शाती है कि तार्किक तर्क और गणितीय समस्या समाधान में, प्रदर्शन को बनाए रखते हुए या सुधारते हुए, प्रतिक्रिया अवधि को क्रमशः 40% और 33% तक कम किया जा सकता है।
Takeaways, Limitations
•
Takeaways:
◦
बड़े पैमाने पर अनुमान मॉडल की प्रतिक्रिया लंबाई को प्रभावी ढंग से कम करने के लिए एक नवीन विधि प्रस्तुत की गई है।
◦
प्रदर्शन में गिरावट और अतिरिक्त प्रशिक्षण डेटा या चरणों के बिना प्रतिक्रिया की लंबाई कम करें।
◦
इसके साथ ही तार्किक तर्क और गणितीय समस्या समाधान में प्रदर्शन में सुधार और प्रतिक्रिया की लंबाई में कमी प्राप्त करें।
•
Limitations:
◦
प्रस्तावित पुरस्कार डिजाइन की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
◦
विभिन्न प्रकार की अनुमान समस्याओं के लिए अधिक प्रयोगात्मक परिणामों की आवश्यकता है।
◦
ऐसी संभावना है कि परिणाम विशिष्ट मॉडलों और डेटासेट तक ही सीमित हों।