Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales

Created by
  • Haebom

Auteur

Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma

Contour

Cet article propose UITron-Speech, un agent d'interface utilisateur graphique vocal. Pour pallier les limitations d'accessibilité et d'utilisabilité des agents d'interface utilisateur graphique textuels existants, nous développons le premier agent d'interface utilisateur graphique de bout en bout qui traite directement les commandes vocales et les captures d'écran de l'appareil afin de prédire le comportement de l'utilisateur. Pour pallier l'insuffisance de données, nous synthétisons un ensemble de données de commandes vocales de haute qualité à l'aide d'un modèle de synthèse vocale à locuteurs aléatoires et concevons une stratégie d'apprentissage à modalités mixtes pour atténuer le problème de déséquilibre des modalités des modèles de base pré-entraînés. De plus, nous effectuons une analyse statistique de la distribution des erreurs de prédiction de la mise à la terre de l'interface utilisateur graphique et proposons une méthode d'amélioration de la mise à la terre en deux étapes, sans apprentissage, pour atténuer les erreurs de positionnement mineures. Des expériences approfondies sur divers benchmarks démontrent qu'UITron-Speech offre des performances robustes et une excellente adaptabilité, soulignant la faisabilité et le potentiel des agents d'interface utilisateur graphique vocaux. Le code et l'ensemble de données sont disponibles à l' adresse https://github.com/UITron-hub/UITron-Speech .

Takeaways, Limitations

Takeaways:
Démontre la faisabilité et l’accessibilité des agents d’interface utilisateur graphique basés sur la voix.
Présentation de stratégies efficaces de synthèse et de formation des données pour résoudre les problèmes de pénurie de données.
Proposer une méthode efficace pour améliorer les erreurs de mise à la terre de l'interface graphique.
Présenter de nouvelles possibilités pour une interaction homme-ordinateur plus pratique et plus intelligente.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode présentée dans cet article.
Une évaluation de la robustesse dans divers environnements de parole et de langage est nécessaire.
Une évaluation des performances et une recherche sur l’expérience utilisateur dans des environnements d’utilisation réels sont nécessaires.
Une vérification de l'applicabilité pour les interfaces graphiques complexes ou divers types d'interfaces graphiques est requise.
👍