दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बफर तंत्र के परिप्रेक्ष्य से प्रतीकात्मक बहु-चरणीय तर्क समस्या को हल करने के लिए भाषा मॉडल को समझना

Created by
  • Haebom

लेखक

झिवेई वांग, युनजी वांग, झोंगवांग झांग, झांगचेन झोउ, हुई जिन, तियानयांग हू, जियाचेंग सन, झेंगुओ ली, याओयू झांग, झी-किन जॉन जू

रूपरेखा

इस शोधपत्र का उद्देश्य बड़े पैमाने के भाषा मॉडलों (एलएलएम) की जटिल तर्क क्षमताओं, विशेष रूप से गणितीय समस्याओं को हल करने की उनकी क्षमता में सुधार करना है। ट्रांसफॉर्मर मॉडल के सूचना प्रसार तंत्र को समझने के लिए, हमने एक बहु-चरणीय अनुमान कार्य तैयार किया और प्रत्यक्ष उत्तरों और विचार-श्रृंखला (सीओटी) अनुमान की तुलना और विश्लेषण किया। हम एक "बफर तंत्र" अवधारणा का प्रस्ताव करते हैं, जो मॉडल को विभिन्न सूचनाओं को अलग-अलग बफर्स ​​में संग्रहीत करने और आवश्यकतानुसार उन्हें चुनिंदा रूप से निकालने की अनुमति देता है। इसे बेहतर बनाने के लिए, हम केवल 132 सीखने योग्य मापदंडों के साथ एक यादृच्छिक मैट्रिक्स-आधारित एल्गोरिथ्म प्रस्तावित करते हैं। प्रस्तावित एल्गोरिथ्म सात बहु-चरणीय अनुमान डेटासेट पर बेहतर प्रदर्शन प्रदर्शित करता है, जिनमें PrOntoQA, LogicAsker और LogicInference शामिल हैं। यह अध्ययन एलएलएम के आंतरिक कामकाज में नई अंतर्दृष्टि प्रदान करता है।

Takeaways, Limitations

Takeaways:
एलएलएम तर्क प्रक्रिया में सूचना भंडारण और उपयोग के तंत्र की एक नई समझ प्रदान करता है।
हम प्रदर्शित करते हैं कि प्रस्तावित यादृच्छिक मैट्रिक्स-आधारित एल्गोरिदम कम मापदंडों के साथ एलएलएम की अनुमान क्षमता को प्रभावी ढंग से सुधार सकता है।
विभिन्न बहु-स्तरीय अनुमान डेटासेट पर प्रदर्शन में सुधार करके एल्गोरिथ्म की व्यापकता की पुष्टि की गई।
यह एलएलएम की डिजाइन और सीखने की रणनीतियों में सुधार के लिए नई दिशाएँ प्रस्तुत करता है।
Limitations:
प्रस्तावित एल्गोरिथम की प्रभावशीलता कुछ प्रकार की बहु-चरणीय अनुमान समस्याओं तक सीमित हो सकती है।
बफर तंत्र के विशिष्ट संचालन सिद्धांतों का आगे विश्लेषण आवश्यक है।
अधिक जटिल एवं विविध अनुमान कार्यों के लिए निष्पादन मूल्यांकन की आवश्यकता है।
एल्गोरिथ्म की मापनीयता और अन्य मॉडल आर्किटेक्चर पर इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
👍