Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales
Created by
Haebom
Auteur
Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma
Contour
Cet article propose UITron-Speech, un agent d'interface utilisateur graphique vocal. Pour pallier les limitations d'accessibilité et d'utilisabilité des agents d'interface utilisateur graphique textuels existants, nous développons le premier agent d'interface utilisateur graphique de bout en bout qui traite directement les commandes vocales et les captures d'écran de l'appareil afin de prédire le comportement de l'utilisateur. Pour pallier l'insuffisance de données, nous synthétisons un ensemble de données de commandes vocales de haute qualité à l'aide d'un modèle de synthèse vocale à locuteurs aléatoires et concevons une stratégie d'apprentissage à modalités mixtes pour atténuer le problème de déséquilibre des modalités des modèles de base pré-entraînés. De plus, nous effectuons une analyse statistique de la distribution des erreurs de prédiction de la mise à la terre de l'interface utilisateur graphique et proposons une méthode d'amélioration de la mise à la terre en deux étapes, sans apprentissage, pour atténuer les erreurs de positionnement mineures. Des expériences approfondies sur divers benchmarks démontrent qu'UITron-Speech offre des performances robustes et une excellente adaptabilité, soulignant la faisabilité et le potentiel des agents d'interface utilisateur graphique vocaux. Le code et l'ensemble de données sont disponibles à l' adresse https://github.com/UITron-hub/UITron-Speech .