दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

नेचरजीएआईए: चुनौतीपूर्ण बेंचमार्क और उच्च-गुणवत्ता वाले ट्रैजेक्टरी डेटासेट के साथ जीयूआई एजेंटों की सीमाओं को आगे बढ़ाना

Created by
  • Haebom

लेखक

जिहान झेंग, तियानले कुई, चुवेन झी, जियाहुई झांग, जियाहुई पैन, लेवेई हे, कियांगलोंग चेन

रूपरेखा

यह शोधपत्र, कारणात्मक मार्गों (CPAs) के सिद्धांत पर आधारित एक नवीन बेंचमार्क, NaturalGAIA का प्रस्ताव करता है, जो मौजूदा मूल्यांकन बेंचमार्क की सटीकता, पुनरुत्पादनशीलता और मापनीयता की सीमाओं को दूर करने के लिए है, जो बड़े पैमाने पर भाषा मॉडल (LLM)-आधारित ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) एजेंटों के विकास में बाधा डालते हैं। NaturalGAIA जटिल कार्यों को प्रोग्रामेटिक रूप से सत्यापन योग्य, परमाण्विक चरणों की एक श्रृंखला में संरचित करके कठोर, पूरी तरह से स्वचालित और पुनरुत्पादन योग्य मूल्यांकन मानदंड प्रदान करता है। इसके अलावा, एजेंटों की अंतर्निहित कार्यात्मक खामियों को कम करने के लिए, हम LightManus विकसित करते हैं, जो दीर्घकालिक कार्यों के लिए अनुकूलित एक पदानुक्रमित एजेंट आर्किटेक्चर है। इस आर्किटेक्चर का उपयोग उच्च-गुणवत्ता वाले मानव-सत्यापित डेटासेट को उत्पन्न करने के लिए किया जाता है जो LLM के विविध और स्व-सही अंतःक्रिया पैटर्न को कैप्चर करता है। इस डेटासेट का उपयोग करके, हम Qwen2.5-VL-7B मॉडल पर रीइन्फोर्समेंट लर्निंग फ़ाइन-ट्यूनिंग (RFT) करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि नेचुरल GAIA अत्याधुनिक LLM के लिए भी गंभीर चुनौतियाँ प्रस्तुत करता है, जिसमें सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल, क्लाउड-सोनेट-4, केवल 34.6% की भारित पथ सफलता दर (WPSR) प्राप्त कर पाया। जहाँ RFT ने छोटे मॉडलों की GUI निष्पादन क्षमता में सुधार किया (WPSR 3.3% से बढ़कर 10.8% हो गया), वहीं जटिल परिदृश्यों में प्रदर्शन में उल्लेखनीय गिरावट आई, जिससे व्यापक कार्यों, जैसे कि धारणा, निर्णय लेने और निष्पादन, का सामना करने पर छोटे मॉडलों की अंतर्निहित प्रदर्शन सीमाएँ प्रदर्शित हुईं। यह अध्ययन कठोर मूल्यांकन मानदंड और एक उच्च-गुणवत्ता वाला डेटासेट प्रदान करता है, जो GUI एजेंटों के भविष्य के विकास के लिए मार्गदर्शन प्रदान करता है।

Takeaways, Limitations

Takeaways:
हम नेचुरलजीएआईए प्रस्तुत करते हैं, जो एलएलएम-आधारित जीयूआई एजेंटों के मूल्यांकन के लिए एक नया कठोर और पुनरुत्पादनीय बेंचमार्क है।
लाइटमैनस का विकास, एक पदानुक्रमित एजेंट आर्किटेक्चर जो दीर्घकालिक कार्यों के लिए अनुकूलित है, और उच्च गुणवत्ता वाले डेटासेट का निर्माण।
एलएलएम की जीयूआई निष्पादन क्षमता में सुधार के लिए आरएफटी की प्रभावशीलता और सीमाओं का प्रयोगात्मक प्रदर्शन।
वर्तमान अत्याधुनिक एलएलएम की जीयूआई प्रदर्शन क्षमताओं का यथार्थवादी मूल्यांकन प्रदान करता है।
Limitations:
नेचुरलजीएआईए बेंचमार्क की मापनीयता और सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
यह समझने के लिए आगे विश्लेषण की आवश्यकता है कि RFT की प्रभावशीलता मॉडल के आकार के साथ महत्वपूर्ण रूप से भिन्न क्यों होती है।
अधिक विविध और जटिल GUI कार्यों को कवर करने के लिए बेंचमार्क का विस्तार किया जाना आवश्यक है।
लाइटमैनस आर्किटेक्चर की अन्य एलएलएम और कार्यों के लिए सामान्यीकरण की पुष्टि की जानी आवश्यक है।
👍