दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

Aria-UI: GUI निर्देशों के लिए विज़ुअल ग्राउंडिंग

Created by
  • Haebom

लेखक

युहाओ यांग, यू वांग, डोंगक्सू ली, ज़ियांग लुओ, बेई चेन, चाओ हुआंग, जुन्नन ली

रूपरेखा

इस शोधपत्र में, हम डिजिटल एजेंटों के लिए एक नवीन, बड़े पैमाने का मल्टीमॉडल मॉडल, Aria-UI प्रस्तुत करते हैं, जो विभिन्न प्लेटफ़ॉर्म पर GUI में सीधे हेरफेर करके कार्यों को स्वचालित करता है। Aria-UI, HTML या AXTree इनपुट पर निर्भर हुए बिना, विशुद्ध रूप से विज़न दृष्टिकोण अपनाकर, भाषा निर्देशों को लक्ष्य तत्वों से जोड़ने की चुनौती का समाधान करता है। यह एक स्केलेबल डेटा पाइपलाइन के माध्यम से विषम योजना निर्देशों के अनुकूल होता है जो विविध और उच्च-गुणवत्ता वाले निर्देश नमूने उत्पन्न करता है, और कार्य निष्पादन के दौरान गतिशील संदर्भ को संभालने के लिए मिश्रित टेक्स्ट और टेक्स्ट-इमेज कार्य इतिहास को एकीकृत करके संदर्भ-जागरूक अनुमान को बढ़ाता है। प्रायोगिक परिणाम दर्शाते हैं कि Aria-UI ऑफ़लाइन और ऑनलाइन, दोनों एजेंट बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है, और मौजूदा विज़न-ओनली और AXTree-आधारित मॉडलों से बेहतर प्रदर्शन करता है। सभी प्रशिक्षण डेटा और मॉडल चेकपॉइंट सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
हम एक नवीन बहु-मॉडल मॉडल, आरिया-यूआई प्रस्तुत करते हैं, जो GUI-आधारित कार्य स्वचालन एजेंटों के प्रदर्शन को बेहतर बनाने में योगदान देता है।
HTML या AXTree इनपुट पर निर्भरता हटाने से अधिक मजबूत और सामान्य एजेंट विकास संभव हो जाता है।
स्केलेबल डेटा पाइपलाइनों के माध्यम से विविध कार्य निर्देशों के लिए बेहतर अनुकूलनशीलता।
पाठ और पाठ-छवि सम्मिश्रण कार्य इतिहास का लाभ उठाते हुए संदर्भ-जागरूक अनुमान के साथ लक्ष्य तत्वों को अधिक सटीकता से जोड़ें।
खुले स्रोत प्रकटीकरण के माध्यम से निरंतर अनुसंधान विकास की संभावना प्रस्तुत करना।
Limitations:
इस पत्र में, हमने विभिन्न बेंचमार्क पर Aria-UI के प्रदर्शन का मूल्यांकन किया है, लेकिन विभिन्न वास्तविक GUI वातावरणों में इसके सामान्यीकरण प्रदर्शन का अतिरिक्त सत्यापन आवश्यक हो सकता है।
कुछ प्रकार के GUI या कार्यों के प्रति पूर्वाग्रह हो सकता है।
डेटा पाइपलाइनों की मापनीयता पर सीमाएं और डेटा गुणवत्ता के निरंतर प्रबंधन की आवश्यकता।
जटिल और अस्पष्ट कार्य निर्देशों को संसाधित करने की क्षमता पर आगे अनुसंधान की आवश्यकता हो सकती है।
👍