दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मैजिकजीयूआई: स्केलेबल डेटा पाइपलाइन और सुदृढ़ीकरण फाइन-ट्यूनिंग के साथ एक आधारभूत मोबाइल जीयूआई एजेंट

Created by
  • Haebom

लेखक

लिउजियन तांग, शाओकांग डोंग, यिजिया हुआंग, मिनकी जियांग, होंगताओ रुआन, बिन वांग, शुओ ली, झिहेंग शी, झिहुई काओ, हैलियांग पैंग, हेंग कांग, हे यांग, मिंगक्सू चाई, झिलिन गाओ, जिंगयु लियू, यिंगनान फू, जियामिंग लियू, जुआनजिंग हुआंग, यू-गैंग जियांग, ताओ गुई, क्यूई झांग, कांग वांग, युंके झांग, युरान वांग

रूपरेखा

MagicGUI एक मूलभूत मोबाइल GUI एजेंट है जिसे वास्तविक दुनिया के मोबाइल GUI परिवेशों में धारणा, आधार निर्माण और अनुमान की महत्वपूर्ण चुनौतियों का समाधान करने के लिए डिज़ाइन किया गया है। इसमें छह मुख्य घटक शामिल हैं: (1) एक व्यापक और सटीक डेटासेट जो एक स्केलेबल GUI डेटा पाइपलाइन के माध्यम से निर्मित होता है जो ओपन-सोर्स रिपॉजिटरी, स्वचालित क्रॉलिंग और लक्षित मैनुअल एनोटेशन से एकत्र किए गए सबसे बड़े और सबसे विविध GUI-केंद्रित मल्टीमॉडल डेटा को एकत्रित करता है; (2) उन्नत धारणा और आधार निर्माण क्षमताएं जो UI तत्व संदर्भ, आधार निर्माण और स्क्रीन समझ के लिए बारीक मल्टीमॉडल संरेखण की सुविधा प्रदान करती हैं; (3) एक व्यापक और एकीकृत कार्य स्थान जो बुनियादी UI कार्यों और जटिल इंटरैक्शन इरादों दोनों को शामिल करता है, मानव-एजेंट इंटरैक्शन का समर्थन करता है और (5) एक पुनरावृत्त दो-चरणीय प्रशिक्षण प्रक्रिया जो 7.8 मिलियन नमूनों पर बड़े पैमाने पर निरंतर पूर्व-प्रशिक्षण को स्थानिक रूप से संवर्धित यौगिक पुरस्कार और दोहरी फ़िल्टरिंग रणनीतियों का उपयोग करके सुदृढीकरण सीखने के फ़ाइन-ट्यूनिंग के साथ जोड़ती है। (6) यह मालिकाना मैजिक-रिच बेंचमार्क और एक दर्जन से अधिक सार्वजनिक बेंचमार्क पर प्रतिस्पर्धी प्रदर्शन प्राप्त करता है, जीयूआई धारणा और एजेंट कार्यों में उत्कृष्ट प्रदर्शन प्राप्त करता है, और वास्तविक दुनिया के मोबाइल जीयूआई परिदृश्यों में मजबूत सामान्यीकरण और वास्तविक दुनिया की तैनाती का प्रदर्शन करता है, जैसा कि चित्र 1 में विस्तृत है।

Takeaways, Limitations

Takeaways:
बड़े पैमाने पर मल्टी-मोडल GUI डेटासेट का उपयोग करके मोबाइल GUI एजेंटों के प्रदर्शन में सुधार करना।
बेहतर धारणा और आधार निर्माण क्षमताओं के माध्यम से सटीक और कुशल यूआई इंटरैक्शन।
योजना-उन्मुख तर्क तंत्र के माध्यम से जटिल कार्य करने की क्षमता।
वास्तविक दुनिया के मोबाइल वातावरण में मजबूत सामान्यीकरण और तैनाती।
विभिन्न बेंचमार्क में उत्कृष्ट प्रदर्शन प्राप्त करें।
Limitations:
मैजिक-रिच बेंचमार्क के आंतरिक विकास के कारण वस्तुनिष्ठता की संभावित हानि।
डेटासेट पूर्वाग्रह के कारण खराब सामान्यीकरण प्रदर्शन की संभावना।
वास्तविक दुनिया के वातावरण में अपवादों को संभालने की क्षमता पर और अधिक शोध की आवश्यकता है।
एजेंट की जटिलता के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
👍