दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लाइवएमसीपी-101: चुनौतीपूर्ण प्रश्नों पर एमसीपी-सक्षम एजेंटों का तनाव परीक्षण और निदान

Created by
  • Haebom

लेखक

मिंग यिन, डिंगहान शेन, सिली जू, जियानबिंग हान, सिक्सुन डोंग, मियां झांग, येबोवेन हू, शुजियान लियू, सिमिन मा, सोंग वांग, सतीश रेड्डी इंदुर्थी, ज़ुन वांग, यिरान चेन, कैकियांग सॉन्ग

रूपरेखा

LiveMCP-101 बेंचमार्क को विभिन्न मॉडल संदर्भ प्रोटोकॉल (MCP) उपकरणों का उपयोग करके जटिल, बहु-चरणीय कार्यों को हल करने हेतु AI एजेंटों की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसमें 101 वास्तविक-विश्व क्वेरीज़ शामिल हैं और इसके लिए वेब खोज, फ़ाइल संचालन, गणितीय तर्क और डेटा विश्लेषण सहित कई MCP उपकरणों के समन्वित उपयोग की आवश्यकता होती है। पारंपरिक API आउटपुट-आधारित मूल्यांकन विधियों के विपरीत, यह वास्तविक-विश्व परिवेशों की गतिशील प्रकृति को बेहतर ढंग से प्रतिबिंबित करने के लिए सही निष्पादन योजनाओं का उपयोग करता है। प्रायोगिक परिणाम दर्शाते हैं कि अत्याधुनिक LLM की भी सफलता दर 60% से कम है और वे विभिन्न विफलता मोड प्रदर्शित करते हैं, जिनमें टोकन उपयोग में अक्षमताएँ भी शामिल हैं। यह टूल ट्यूनिंग की कठिनाई को उजागर करता है और मॉडल सुधार के लिए भविष्य की दिशाएँ सुझाता है।

Takeaways, Limitations

Takeaways:
यह वास्तविक दुनिया के वातावरण में कई उपकरणों का उपयोग करके जटिल कार्यों को करने की क्षमता के मूल्यांकन के लिए कठोर मानदंड प्रदान करता है।
यह अत्याधुनिक एलएलएम की टूल ट्यूनिंग क्षमताओं की सीमाओं को स्पष्ट रूप से दर्शाता है।
हम उपकरण के उपयोग के दौरान होने वाली विभिन्न विफलता मोड और अक्षमताओं का विश्लेषण करते हैं और मॉडल सुधार के लिए दिशा-निर्देश सुझाते हैं।
यह स्वायत्त एआई प्रणालियों के विकास के लिए महत्वपूर्ण विकास दिशाएँ प्रस्तुत करता है।
Limitations:
बेंचमार्क का आकार (101 क्वेरीज़) अपेक्षाकृत सीमित हो सकता है।
हो सकता है कि यह वास्तविक दुनिया की विभिन्न स्थितियों को पूरी तरह से प्रतिबिंबित न करे।
मूल्यांकन विधियों में सुधार और अधिक विविध उपकरणों का एकीकरण आवश्यक हो सकता है।
👍