दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

गणितीय समस्या समाधान के लिए एलएलएम का मूल्यांकन

Created by
  • Haebom

लेखक

रुओनन वांग, रनक्सी वांग, युनवेन शेन, चेंगफेंग वू, किंगलिन झोउ, रोहिताश चंद्रा

रूपरेखा

यह पत्र तीन प्रमुख बड़े पैमाने के भाषा मॉडल (एलएलएम), जीपीटी-4o, डीपसीक-वी3 और जेमिनी-2.0 की गणितीय समस्या-सुलझाने की क्षमताओं की तुलना और विश्लेषण करता है, तीन डेटासेट का उपयोग करके: जीएसएम8के, मैथ500 और एमआईटी ओपन कोर्सवेयर। स्ट्रक्चर्ड चेन-ऑफ-थॉट (एससीओटी) ढांचे के आधार पर, हम पांच पहलुओं का मूल्यांकन करते हैं: अंतिम उत्तर सटीकता, चरण पूर्णता, चरण वैधता, मध्यवर्ती गणना सटीकता और समस्या समझ। नतीजतन, जीपीटी-4o सभी डेटासेट पर सबसे स्थिर और सुसंगत प्रदर्शन दिखाता है, और विशेष रूप से एमआईटी ओपन कोर्सवेयर डेटासेट पर कठिन समस्याओं पर उत्कृष्टता प्राप्त करता है। डीपसीक-वी3 अनुकूलन जैसे अच्छी तरह से संरचित क्षेत्रों में प्रतिस्पर्धी प्रदर्शन दिखाता है त्रुटि विश्लेषण परिणामों से पता चला कि GPT-4o में कभी-कभी स्पष्टीकरण या सटीकता का अभाव होता था, डीपसीक-V3 में कभी-कभी मध्यवर्ती चरणों को छोड़ दिया जाता था, और जेमिनी-2.0 उच्च-आयामी गणितीय तर्क में अनम्य था।

____T46291_____, Limitations

Takeaways:
GPT-4o विभिन्न गणितीय समस्याओं को हल करने में सबसे स्थिर और उत्कृष्ट प्रदर्शन दिखाता है। यह कठिन समस्याओं को हल करने में विशेष रूप से उत्कृष्ट है।
विभिन्न दृष्टिकोणों से एलएलएम के गणितीय समस्या समाधान कौशल का आकलन करने के लिए एससीओटी ढांचे की उपयोगिता को मान्य करना।
प्रत्येक एलएलएम की शक्तियों और कमजोरियों की पहचान करें और भविष्य के मॉडल विकास की दिशा सुझाएं।
विशिष्ट प्रकार की गणितीय समस्याओं में विशेषज्ञता प्राप्त एलएलएम विकसित करने की संभावना प्रदान करता है।
Limitations:
विश्लेषण के लिए सीमित एलएलएम (जीपीटी-4o, डीपसीक-वी3, जेमिनी-2.0)।
डेटासेट में विविधता का अभाव।
त्रुटि विश्लेषण के गहन विश्लेषण का अभाव।
प्रत्येक मॉडल की विशिष्ट कमजोरियों में सुधार हेतु सुझावों का अभाव।
👍