यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) की गणितीय तर्क क्षमताओं को बढ़ाने के लिए सीड-प्रूवर नामक एक नवीन मॉडल का प्रस्ताव करता है। सीड-प्रूवर, सुदृढीकरण अधिगम के माध्यम से प्रमाण प्रक्रिया को पुनरावृत्त रूप से बेहतर बनाने के लिए, एक औपचारिक सत्यापन भाषा, लीन का लाभ उठाता है। हमने IMO-स्तरीय समस्याओं को हल करने के लिए तीन अनुमान रणनीतियाँ तैयार की हैं। हमारा मॉडल पिछली IMO समस्याओं में से 78.1% को सिद्ध करता है, MiniF2F डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करता है, और PutnamBench से 50% से अधिक बेहतर प्रदर्शन करता है। यह मौजूदा विधियों से उल्लेखनीय रूप से बेहतर प्रदर्शन करता है। इसके अलावा, लीन में ज्यामिति समर्थन की कमी को दूर करने के लिए, हमने सीड-ज्यामिति नामक एक ज्यामितीय अनुमान इंजन भी विकसित किया है, जिसने IMO 2025 चुनौती में छह में से पाँच समस्याओं को सफलतापूर्वक सिद्ध किया है। यह औपचारिक सत्यापन और दीर्घकालिक सोच का लाभ उठाते हुए स्वचालित गणितीय तर्क के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है।
Takeaways, Limitations
•
Takeaways:
◦
एलएलएम का उपयोग करके गणितीय प्रमेय सिद्ध करने के क्षेत्र में बड़ी प्रगति हुई है।
◦
हमने लीन जैसी औपचारिक भाषाओं का उपयोग करके सुदृढीकरण सीखने की प्रभावशीलता का प्रदर्शन किया है।
◦
सीड-प्रूवर और सीड-ज्यामिति मौजूदा स्वचालित गणितीय अनुमान प्रणालियों से काफी बेहतर प्रदर्शन करते हैं।
◦
मॉडल की व्यावहारिकता का सत्यापन IMO 2025 में वास्तविक भागीदारी के माध्यम से किया गया।
•
Limitations:
◦
इसकी लीन भाषाओं पर अत्यधिक निर्भरता है। अन्य औपचारिक भाषाओं में इसकी विस्तारशीलता का पता लगाने के लिए शोध की आवश्यकता है।
◦
सीड-ज्यामिति सहित ज्यामिति समर्थन एक्सटेंशन आवश्यक हैं।
◦
हो सकता है कि आप सभी गणितीय समस्याओं को हल करने में सक्षम न हों, तथा आप कुछ प्रकार की समस्याओं में अच्छे भी हो सकते हैं।
◦
इसमें कम्प्यूटेशनल जटिलता और प्रसंस्करण समय के विश्लेषण का अभाव है।