यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) पर आधारित बुद्धिमान एजेंटों के तेज़ी से विकास को देखते हुए एक मज़बूत और मापनीय मूल्यांकन ढाँचे की आवश्यकता पर प्रकाश डालता है। मौजूदा विधियाँ स्थिर बेंचमार्क और श्रम-गहन डेटा संग्रह पर निर्भर करती हैं, जिससे व्यावहारिक मूल्यांकन सीमित हो जाता है। इस शोधपत्र में, हम MCPEval का परिचय देते हैं, जो एक ओपन-सोर्स मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP)-आधारित ढाँचा है जो विभिन्न डोमेन में LLM एजेंटों के संपूर्ण कार्य निर्माण और गहन मूल्यांकन को स्वचालित करता है। MCPEval मेट्रिक्स को मानकीकृत करता है, मूल एजेंट टूल्स के साथ सहजता से एकीकृत होता है, और मूल्यांकन पाइपलाइन बनाने के लिए आवश्यक मैन्युअल प्रयास को समाप्त करता है। पाँच वास्तविक-विश्व डोमेन पर प्रायोगिक परिणाम सूक्ष्म और डोमेन-विशिष्ट प्रदर्शन को प्रकट करने में इसकी प्रभावशीलता को प्रदर्शित करते हैं। MCPEval को पुनरुत्पादनीय और मानकीकृत LLM एजेंट मूल्यांकन को सुगम बनाने के लिए सार्वजनिक रूप से जारी किया गया है ( https://github.com/SalesforceAIResearch/MCPEval )।