यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर
Created by
Haebom
लेखक
वेनकांग हान, ज़िक्सियॉन्ग ज़ेंग, जिंग हुआंग, शू जियांग, लिमिंग झेंग, हैबो किउ, चांग याओ, जिंगयुआन चेन, लिन मा
रूपरेखा
यह पत्र UITron-Speech, एक ध्वनि-आधारित GUI एजेंट का प्रस्ताव करता है। मौजूदा टेक्स्ट-आधारित GUI एजेंटों की पहुँच और उपयोगिता की सीमाओं को दूर करने के लिए, हमने पहला एंड-टू-एंड GUI एजेंट विकसित किया है जो उपयोगकर्ता के व्यवहार का अनुमान लगाने के लिए सीधे ध्वनि आदेशों और डिवाइस पर स्क्रीनशॉट को संसाधित करता है। डेटा की कमी को दूर करने के लिए, हमने एक यादृच्छिक स्पीकर टेक्स्ट-टू-स्पीच मॉडल का उपयोग करके एक उच्च-गुणवत्ता वाले ध्वनि आदेश डेटासेट का संश्लेषण किया है और पूर्व-प्रशिक्षित आधार मॉडलों की मोडैलिटी असंतुलन समस्या को कम करने के लिए एक मिश्रित-मोडैलिटी प्रशिक्षण रणनीति तैयार की है। इसके अलावा, हम GUI ग्राउंडिंग भविष्यवाणी त्रुटि वितरण का एक सांख्यिकीय विश्लेषण करते हैं और मामूली स्थिति संबंधी त्रुटियों को कम करने के लिए एक प्रशिक्षण-मुक्त, दो-चरणीय ग्राउंडिंग सुधार विधि का प्रस्ताव करते हैं। विभिन्न बेंचमार्क पर व्यापक प्रयोग दर्शाते हैं कि UITron-Speech मजबूत प्रदर्शन और उत्कृष्ट अनुकूलनशीलता प्राप्त करता है, जो ध्वनि-आधारित GUI एजेंटों की व्यवहार्यता और क्षमता को उजागर करता है। कोड और डेटासेट https://github.com/UITron-hub/UITron-Speech पर उपलब्ध हैं ।