[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MCPEval: AI एजेंट मॉडल के लिए स्वचालित MCP-आधारित गहन मूल्यांकन

Created by
  • Haebom

लेखक

झिवेई लियू, जीलिन किउ, शियू वांग, जियांगुओ झांग, ज़क्सिन लियू, रोशन राम, हाओलिन चेन, वीरान याओ, हुआन वांग, शेल्बी हेनेके, सिल्वियो सावरेसे, कैमिंग ज़िओंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) पर आधारित बुद्धिमान एजेंटों के तेज़ी से विकास को देखते हुए एक मज़बूत और मापनीय मूल्यांकन ढाँचे की आवश्यकता पर प्रकाश डालता है। मौजूदा विधियाँ स्थिर बेंचमार्क और श्रम-गहन डेटा संग्रह पर निर्भर करती हैं, जिससे व्यावहारिक मूल्यांकन सीमित हो जाता है। इस शोधपत्र में, हम MCPEval का परिचय देते हैं, जो एक ओपन-सोर्स मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP)-आधारित ढाँचा है जो विभिन्न डोमेन में LLM एजेंटों के संपूर्ण कार्य निर्माण और गहन मूल्यांकन को स्वचालित करता है। MCPEval मेट्रिक्स को मानकीकृत करता है, मूल एजेंट टूल्स के साथ सहजता से एकीकृत होता है, और मूल्यांकन पाइपलाइन बनाने के लिए आवश्यक मैन्युअल प्रयास को समाप्त करता है। पाँच वास्तविक-विश्व डोमेन पर प्रायोगिक परिणाम सूक्ष्म और डोमेन-विशिष्ट प्रदर्शन को प्रकट करने में इसकी प्रभावशीलता को प्रदर्शित करते हैं। MCPEval को पुनरुत्पादनीय और मानकीकृत LLM एजेंट मूल्यांकन को सुगम बनाने के लिए सार्वजनिक रूप से जारी किया गया है ( https://github.com/SalesforceAIResearch/MCPEval )।

Takeaways, Limitations

Takeaways:
एलएलएम एजेंटों के मूल्यांकन के लिए एक स्वचालित और स्केलेबल ओपन सोर्स फ्रेमवर्क प्रदान करना।
विभिन्न डोमेन में एलएलएम एजेंटों के प्रदर्शन का गहन मूल्यांकन।
मानकीकृत मेट्रिक्स और मूल एजेंट उपकरणों को एकीकृत करके मूल्यांकन पाइपलाइनों के निर्माण की दक्षता में वृद्धि करें।
पुनरुत्पादनीय और मानकीकृत एलएलएम एजेंट आकलन के लिए अनुसंधान और विकास को सुविधाजनक बनाना।
Limitations:
किसी फ्रेमवर्क का प्रदर्शन प्रयुक्त बेंचमार्क और मूल्यांकन मेट्रिक्स पर निर्भर हो सकता है।
नये डोमेन या कार्य प्रकारों के अनुकूलन पर अतिरिक्त शोध की आवश्यकता हो सकती है।
एमसीपी को व्यापक रूप से अपनाना इस ढांचे की सफलता में एक महत्वपूर्ण कारक है।
👍