यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
इस शोधपत्र का उद्देश्य बड़े पैमाने के भाषा मॉडलों (एलएलएम) की जटिल तर्क क्षमताओं, विशेष रूप से गणितीय समस्याओं को हल करने की उनकी क्षमता में सुधार करना है। ट्रांसफॉर्मर मॉडल के सूचना प्रसार तंत्र को समझने के लिए, हमने एक बहु-चरणीय अनुमान कार्य तैयार किया और प्रत्यक्ष उत्तरों और विचार-श्रृंखला (सीओटी) अनुमान की तुलना और विश्लेषण किया। हम एक "बफर तंत्र" अवधारणा का प्रस्ताव करते हैं, जो मॉडल को विभिन्न सूचनाओं को अलग-अलग बफर्स में संग्रहीत करने और आवश्यकतानुसार उन्हें चुनिंदा रूप से निकालने की अनुमति देता है। इसे बेहतर बनाने के लिए, हम केवल 132 सीखने योग्य मापदंडों के साथ एक यादृच्छिक मैट्रिक्स-आधारित एल्गोरिथ्म प्रस्तावित करते हैं। प्रस्तावित एल्गोरिथ्म सात बहु-चरणीय अनुमान डेटासेट पर बेहतर प्रदर्शन प्रदर्शित करता है, जिनमें PrOntoQA, LogicAsker और LogicInference शामिल हैं। यह अध्ययन एलएलएम के आंतरिक कामकाज में नई अंतर्दृष्टि प्रदान करता है।
Takeaways, Limitations
•
Takeaways:
◦
एलएलएम तर्क प्रक्रिया में सूचना भंडारण और उपयोग के तंत्र की एक नई समझ प्रदान करता है।
◦
हम प्रदर्शित करते हैं कि प्रस्तावित यादृच्छिक मैट्रिक्स-आधारित एल्गोरिदम कम मापदंडों के साथ एलएलएम की अनुमान क्षमता को प्रभावी ढंग से सुधार सकता है।
◦
विभिन्न बहु-स्तरीय अनुमान डेटासेट पर प्रदर्शन में सुधार करके एल्गोरिथ्म की व्यापकता की पुष्टि की गई।
◦
यह एलएलएम की डिजाइन और सीखने की रणनीतियों में सुधार के लिए नई दिशाएँ प्रस्तुत करता है।
•
Limitations:
◦
प्रस्तावित एल्गोरिथम की प्रभावशीलता कुछ प्रकार की बहु-चरणीय अनुमान समस्याओं तक सीमित हो सकती है।
◦
बफर तंत्र के विशिष्ट संचालन सिद्धांतों का आगे विश्लेषण आवश्यक है।
◦
अधिक जटिल एवं विविध अनुमान कार्यों के लिए निष्पादन मूल्यांकन की आवश्यकता है।
◦
एल्गोरिथ्म की मापनीयता और अन्य मॉडल आर्किटेक्चर पर इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।