यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
LiveMCP-101 बेंचमार्क को विभिन्न मॉडल संदर्भ प्रोटोकॉल (MCP) उपकरणों का उपयोग करके जटिल, बहु-चरणीय कार्यों को हल करने हेतु AI एजेंटों की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसमें 101 वास्तविक-विश्व क्वेरीज़ शामिल हैं और इसके लिए वेब खोज, फ़ाइल संचालन, गणितीय तर्क और डेटा विश्लेषण सहित कई MCP उपकरणों के समन्वित उपयोग की आवश्यकता होती है। पारंपरिक API आउटपुट-आधारित मूल्यांकन विधियों के विपरीत, यह वास्तविक-विश्व परिवेशों की गतिशील प्रकृति को बेहतर ढंग से प्रतिबिंबित करने के लिए सही निष्पादन योजनाओं का उपयोग करता है। प्रायोगिक परिणाम दर्शाते हैं कि अत्याधुनिक LLM की भी सफलता दर 60% से कम है और वे विभिन्न विफलता मोड प्रदर्शित करते हैं, जिनमें टोकन उपयोग में अक्षमताएँ भी शामिल हैं। यह टूल ट्यूनिंग की कठिनाई को उजागर करता है और मॉडल सुधार के लिए भविष्य की दिशाएँ सुझाता है।
Takeaways, Limitations
•
Takeaways:
◦
यह वास्तविक दुनिया के वातावरण में कई उपकरणों का उपयोग करके जटिल कार्यों को करने की क्षमता के मूल्यांकन के लिए कठोर मानदंड प्रदान करता है।
◦
यह अत्याधुनिक एलएलएम की टूल ट्यूनिंग क्षमताओं की सीमाओं को स्पष्ट रूप से दर्शाता है।
◦
हम उपकरण के उपयोग के दौरान होने वाली विभिन्न विफलता मोड और अक्षमताओं का विश्लेषण करते हैं और मॉडल सुधार के लिए दिशा-निर्देश सुझाते हैं।
◦
यह स्वायत्त एआई प्रणालियों के विकास के लिए महत्वपूर्ण विकास दिशाएँ प्रस्तुत करता है।
•
Limitations:
◦
बेंचमार्क का आकार (101 क्वेरीज़) अपेक्षाकृत सीमित हो सकता है।
◦
हो सकता है कि यह वास्तविक दुनिया की विभिन्न स्थितियों को पूरी तरह से प्रतिबिंबित न करे।
◦
मूल्यांकन विधियों में सुधार और अधिक विविध उपकरणों का एकीकरण आवश्यक हो सकता है।