Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
Contour
Cet article présente une étude exhaustive des agents d'interface utilisateur graphique (IUG) à grande échelle, basés sur des modèles fondamentaux. Les agents IUG sont des systèmes automatisés qui interagissent avec des systèmes numériques ou des applications logicielles sur diverses plateformes en imitant des comportements humains tels que cliquer, taper et naviguer. Cet article catégorise les benchmarks, les indicateurs d'évaluation, les architectures et les méthodes d'apprentissage des agents IUG et propose un cadre unifié décrivant leurs capacités de perception, de raisonnement, de planification et d'action. Il identifie également les principaux défis à relever et les orientations futures, aidant ainsi les chercheurs et les praticiens à comprendre les progrès, les technologies, les benchmarks et les défis actuels.
Takeaways, Limitations
•
Takeaways:
◦
Fournir des recherches et des analyses complètes dans le domaine des agents GUI.
◦
Présentation d'un cadre intégré pour les agents GUI (perception, raisonnement, planification et action).
◦
Fournit une compréhension claire des niveaux technologiques actuels, des repères et des défis majeurs.
◦
Suggérer des orientations de recherche futures
•
Limitations:
◦
Cet article ne propose ni ne vérifie expérimentalement un système d'agent GUI spécifique. Il se concentre plutôt sur la synthèse et l'analyse des recherches existantes.
◦
Manque de discussion sur les implications éthiques et sociales des agents GUI.
◦
Comme il s’agit d’un domaine en développement rapide, il est difficile de refléter les nouveaux résultats de recherche après publication.