दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

Proof2Hybrid: प्रमाण-केंद्रित समस्याओं के लिए स्वचालित गणितीय बेंचमार्क संश्लेषण

Created by
  • Haebom

लेखक

येबो पेंग, ज़िक्सियांग लियू, याओमिंग ली, झिझुओ यांग, ज़िनये जू, बोवेन ये, वेइजुन युआन, ज़िहान वांग, टोंग यांग

रूपरेखा

बड़े पैमाने के भाषा मॉडल (एलएलएम) की गणितीय क्षमता के आकलन की चुनौतियों का समाधान करने के लिए, यह शोधपत्र Proof2Hybrid ढाँचे का प्रस्ताव करता है, जो प्राकृतिक भाषा-गणितीय डेटा से स्वचालित रूप से उच्च-गुणवत्ता वाले प्रमाण-संचालित मानक तैयार करता है। Proof2X नामक एक रोडमैप के माध्यम से, हम गणितीय प्रमाणों को विविध, आसानी से सत्यापन योग्य प्रश्नों में बदलते हैं। विशेष रूप से, हम एक नया हाइब्रिड प्रश्न प्रारूप, "m-out-of-n multi-judge questions" प्रस्तुत करते हैं, जो अनुमान और सतही पैटर्न मिलान के लिए मज़बूत हैं। हम बीजीय ज्यामिति के लिए AlgGeoTest (456-आइटम) मानक का उपयोग करके अत्याधुनिक एलएलएम का मूल्यांकन करते हैं। हमें एलएलएम की बीजीय ज्यामिति की समझ में महत्वपूर्ण कमियाँ मिलती हैं, जो दर्शाती हैं कि इस अंतर का उपयोग उनकी गणितीय क्षमता को अधिक सटीक रूप से मापने के लिए किया जा सकता है। यह अध्ययन एआई प्रणालियों की गणितीय बुद्धिमत्ता पर गहन शोध की नई संभावनाएँ प्रस्तुत करता है।

Takeaways, Limitations

Takeaways:
एलएलएम में गणितीय क्षमता का आकलन करने के लिए एक स्वचालित ढांचा (प्रूफ2हाइब्रिड) प्रस्तुत करना।
एक नए प्रकार के प्रश्न प्रारूप का प्रस्ताव ("M-out-of-n-multiple judge questions") जो मौजूदा तरीकों की सीमाओं पर काबू पाता है।
बीजीय ज्यामिति के लिए एक नया बेंचमार्क (AlgGeoTest) उपलब्ध है।
एलएलएम की गणितीय क्षमताओं की कमियों को मात्रात्मक रूप से उजागर करके, हम भविष्य के अनुसंधान की दिशाएं सुझाते हैं।
Limitations:
Proof2Hybrid ढांचे की व्यापकता और अन्य गणितीय क्षेत्रों में इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
AlgGeoTest बेंचमार्क का दायरा बीजीय ज्यामिति तक सीमित है।
"$M$-out-of-$n$ बहु-न्यायाधीश प्रश्न" प्रारूप के लिए इष्टतम $m$ और $n$ मानों पर आगे अनुसंधान की आवश्यकता है।
👍