यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
इस पत्र में, हम FormulaOne प्रस्तुत करते हैं, एक बेंचमार्क जो प्रतिस्पर्धी प्रोग्रामिंग पहेलियों के बजाय वास्तविक शोध समस्याओं पर केंद्रित है ताकि अत्याधुनिक AI मॉडल की क्षमताओं की सीमाओं को उजागर किया जा सके। FormulaOne में ऐसी समस्याएं शामिल हैं जो ग्राफ सिद्धांत, तर्क और एल्गोरिदम को जोड़ती हैं, और वास्तविक दुनिया के बड़े पैमाने पर अनुकूलन समस्याओं जैसे रूटिंग, शेड्यूलिंग और नेटवर्क डिज़ाइन से संबंधित हैं। समस्याएं मोनाडिक सेकेंड-ऑर्डर (MSO) लॉजिक के आधार पर उत्पन्न होती हैं, जो स्वचालित रूप से उत्पन्न करना आसान है, और कुछ समस्याएं सैद्धांतिक कंप्यूटर विज्ञान में कठिन समस्याओं से निकटता से संबंधित हैं, जैसे कि स्ट्रॉन्ग एक्सपोनेंशियल टाइम हाइपोथीसिस (SETH)। प्रायोगिक परिणाम बताते हैं कि अत्याधुनिक मॉडल, जैसे कि OpenAI का o3, FormulaOne समस्याओं का 1% से भी कम हल करते हैं
____T32630_____, ____T32631_____
•
Takeaways:
◦
फॉर्मूलावन का परिचय, एक नया बेंचमार्क जो वास्तविक दुनिया की शोध समस्याओं के माध्यम से अत्याधुनिक एआई मॉडल की सीमाओं का निष्पक्ष मूल्यांकन करता है।
◦
फॉर्मूला वन का व्यावहारिक अनुप्रयोग और सैद्धांतिक महत्व दोनों है।
◦
अत्याधुनिक मॉडलों का खराब प्रदर्शन स्पष्ट रूप से कुछ क्षेत्रों में विशेषज्ञ स्तर की समझ की कमी को दर्शाता है।
◦
स्वचालित समस्या निर्माण की संभावना का सुझाव देकर भविष्य के अनुसंधान के लिए विस्तारशीलता प्रदान करता है।
◦
फॉर्मूलावन-वार्मअप आगे के अनुसंधान के लिए आधार प्रदान करता है।
•
Limitations:
◦
फॉर्मूला वन का विशिष्ट डोमेन समस्याओं पर ध्यान केंद्रित करने से एआई मॉडल की समग्र क्षमताओं का आकलन करने की उसकी क्षमता सीमित हो सकती है।
◦
चूंकि हमने केवल वर्तमान बेंचमार्क में प्रयुक्त मॉडल के प्रदर्शन का मूल्यांकन किया है, इसलिए अन्य मॉडलों का अतिरिक्त मूल्यांकन आवश्यक है।
◦
एमएसओ तर्क-आधारित समस्या निर्माण की सामान्यता पर आगे अनुसंधान की आवश्यकता है।