दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पुटनाम-एक्सिओम: एलएलएम में उच्च स्तरीय गणितीय तर्क को मापने के लिए एक कार्यात्मक और स्थैतिक बेंचमार्क

Created by
  • Haebom

लेखक

आर्यन गुलाटी, ब्रैंडो मिरांडा, एरिक चेन, एमिली ज़िया, काई फ्रोंस्डल, ब्रूनो ड्यूमॉन्ट, इलियास ओब्बाड, सनमी कोयेजो

रूपरेखा

यह शोधपत्र पुटनाम-एक्सिओम प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडलों (एलएलएम) की गणितीय तर्क क्षमता के मूल्यांकन हेतु एक नया मानक है। मौजूदा मानकों में निहित ओवरफिटिंग समस्या के समाधान हेतु, यह शोधपत्र पुटनाम-एक्सिओम वेरिएशन प्रस्तुत करता है, जो प्रतिष्ठित विलियम लोवेल पुटनाम गणित प्रतियोगिता की 522 समस्याओं पर आधारित, चरों और स्थिरांकों को संशोधित करके उत्पन्न 100 वेरिएशन समस्याओं का एक समूह है। पुटनाम-एक्सिओम वेरिएशन समान कठिनाई की अनंत नई समस्याओं को उत्पन्न करके ओवरफिटिंग को कम करता है। प्रायोगिक परिणाम दर्शाते हैं कि सर्वोच्च प्रदर्शन करने वाला मॉडल, ओपनएआई का o1-प्रीव्यू, मूल समस्या समूह पर 41.9% सटीकता प्राप्त कर पाया, लेकिन वेरिएशन समूह पर इसकी सटीकता 19.6% कम हो गई। यह एलएलएम द्वारा समस्याओं को केवल रटने की प्रवृत्ति को दर्शाता है और एक गतिशील मानक की आवश्यकता पर प्रकाश डालता है। सटीकता मापने के अलावा, यह शोधपत्र शिक्षक-प्रबलित सटीकता (TFA) मीट्रिक भी प्रस्तुत करता है, जो तर्क प्रक्रिया का प्रत्यक्ष मूल्यांकन करता है। डेटा और मूल्यांकन कोड सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
मौजूदा बेंचमार्कों की ओवरफिटिंग समस्या को हल करने के लिए एक नया बेंचमार्क, पुटनाम-एक्सिओम, प्रस्तुत किया गया है।
एलएलएम की गणितीय तर्क क्षमता के लिए वस्तुनिष्ठ और कठोर मूल्यांकन मानदंड प्रदान करता है
एलएलएम में सरल याद करने की प्रवृत्ति का खुलासा और गतिशील बेंचमार्किंग की आवश्यकता पर बल
तर्क प्रक्रियाओं के मूल्यांकन के लिए एक नया मीट्रिक, शिक्षक-प्रबलित सटीकता (TFA) प्रस्तावित किया गया है।
बड़े पैमाने के भाषा मॉडल की गणितीय तर्क क्षमताओं की वर्तमान स्थिति का गहन विश्लेषण प्रदान करता है।
Limitations:
पुटनाम-एक्सिओम उन्नत गणितीय समस्याओं पर केंद्रित है, इसलिए अन्य क्षेत्रों में तर्क कौशल का आकलन करने में इसकी प्रयोज्यता सीमित हो सकती है।
टीएफए सूचक की व्यापकता और वस्तुनिष्ठता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
पुटनाम प्रतिस्पर्धा समस्या की विशिष्ट प्रकृति के कारण सामान्यीकरण में कठिनाइयों की संभावना।
👍