दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर

Created by
  • Haebom

लेखक

वेनकांग हान, ज़िक्सियॉन्ग ज़ेंग, जिंग हुआंग, शू जियांग, लिमिंग झेंग, हैबो किउ, चांग याओ, जिंगयुआन चेन, लिन मा

रूपरेखा

यह पत्र UITron-Speech, एक ध्वनि-आधारित GUI एजेंट का प्रस्ताव करता है। मौजूदा टेक्स्ट-आधारित GUI एजेंटों की पहुँच और उपयोगिता की सीमाओं को दूर करने के लिए, हमने पहला एंड-टू-एंड GUI एजेंट विकसित किया है जो उपयोगकर्ता के व्यवहार का अनुमान लगाने के लिए सीधे ध्वनि आदेशों और डिवाइस पर स्क्रीनशॉट को संसाधित करता है। डेटा की कमी को दूर करने के लिए, हमने एक यादृच्छिक स्पीकर टेक्स्ट-टू-स्पीच मॉडल का उपयोग करके एक उच्च-गुणवत्ता वाले ध्वनि आदेश डेटासेट का संश्लेषण किया है और पूर्व-प्रशिक्षित आधार मॉडलों की मोडैलिटी असंतुलन समस्या को कम करने के लिए एक मिश्रित-मोडैलिटी प्रशिक्षण रणनीति तैयार की है। इसके अलावा, हम GUI ग्राउंडिंग भविष्यवाणी त्रुटि वितरण का एक सांख्यिकीय विश्लेषण करते हैं और मामूली स्थिति संबंधी त्रुटियों को कम करने के लिए एक प्रशिक्षण-मुक्त, दो-चरणीय ग्राउंडिंग सुधार विधि का प्रस्ताव करते हैं। विभिन्न बेंचमार्क पर व्यापक प्रयोग दर्शाते हैं कि UITron-Speech मजबूत प्रदर्शन और उत्कृष्ट अनुकूलनशीलता प्राप्त करता है, जो ध्वनि-आधारित GUI एजेंटों की व्यवहार्यता और क्षमता को उजागर करता है। कोड और डेटासेट https://github.com/UITron-hub/UITron-Speech पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
आवाज आधारित GUI एजेंटों की व्यवहार्यता और पहुंच को प्रदर्शित करता है।
डेटा की कमी के मुद्दों को हल करने के लिए प्रभावी डेटा संश्लेषण और प्रशिक्षण रणनीतियों को प्रस्तुत करना।
GUI ग्राउंडिंग त्रुटियों को सुधारने के लिए एक कुशल विधि का प्रस्ताव।
अधिक सुविधाजनक और बुद्धिमान मानव-कम्प्यूटर संपर्क के लिए नई संभावनाएं प्रस्तुत करना।
Limitations:
इस पत्र में प्रस्तुत विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विविध भाषण और भाषा परिवेशों में सुदृढ़ता का आकलन आवश्यक है।
वास्तविक उपयोग परिवेश में प्रदर्शन मूल्यांकन और उपयोगकर्ता अनुभव अनुसंधान की आवश्यकता है।
जटिल GUI या विभिन्न प्रकार के GUI के लिए प्रयोज्यता सत्यापन आवश्यक है।
👍