दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जीएसएम-प्रतीकात्मक: बड़े भाषा मॉडल में गणितीय तर्क की सीमाओं को समझना

Created by
  • Haebom

लेखक

इमान मिर्ज़ादेह, कीवन अलीज़ादेह, हूमन शाहरुखी, ओन्सेल तुज़ेल, सैमी बेंगियो, मेहरदाद फ़राज़ताबार

रूपरेखा

यह पत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम) की गणितीय तर्क क्षमता का मूल्यांकन करने के लिए उपयोग किए जाने वाले जीएसएम 8 के बेंचमार्क की सीमाओं की पहचान करता है, और इसे बेहतर बनाने के लिए एक नया बेंचमार्क, जीएसएम-सिम्बोलिक प्रस्तावित करता है। जीएसएम-सिम्बोलिक, प्रतीकात्मक टेम्पलेट्स का उपयोग करके विविध गणितीय समस्याएं उत्पन्न करता है, मौजूदा मूल्यांकन विधियों की सीमाओं पर काबू पाता है और अधिक विश्वसनीय मैट्रिक्स प्रदान करता है। हमारे शोध से पता चलता है कि एसओटीए एलएलएम एक ही समस्या के विभिन्न रूपों में प्रदर्शन अंतर प्रदर्शित करते हैं, और समस्या के भीतर संख्यात्मक मूल्यों में सरल परिवर्तन भी प्रदर्शन को कम कर सकते हैं। इसके अलावा, हम पाते हैं कि समस्या में खंडों की संख्या बढ़ने पर प्रदर्शन काफी बिगड़ जाता है। इससे पता चलता है कि एलएलएम सही तार्किक तर्क नहीं करते हैं

Takeaways, Limitations

Takeaways:
हम जीएसएम-सिम्बोलिक बेंचमार्क के माध्यम से एलएलएम की गणितीय तर्क क्षमता का अधिक सटीक और विश्वसनीय मूल्यांकन करने के लिए एक नई विधि प्रस्तुत करते हैं।
हमने एलएलएम की गणितीय तर्क क्षमता में एक कमजोरी की पहचान की है और इसका कारण सही तार्किक तर्क की कमी को बताया है।
हम एलएलएम छात्रों की गणितीय तर्क क्षमता में सुधार के लिए नए शोध दिशा-निर्देश सुझाते हैं।
Limitations:
यद्यपि GSM-सिम्बोलिक बेंचमार्क, GSM8K की तुलना में अधिक व्यापक मूल्यांकन प्रदान करता है, फिर भी यह सभी प्रकार की गणितीय तर्क समस्याओं को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
एलएलएम में गणितीय तर्क क्षमता में गिरावट के कारण के बारे में अटकलों को आगे अनुसंधान के माध्यम से सत्यापित करने की आवश्यकता है।
इस अध्ययन में प्रयुक्त एलएलएम मॉडल के प्रकार और आकार के आधार पर परिणाम भिन्न हो सकते हैं।
👍