Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Aria-UI : Bases visuelles pour les instructions d'interface utilisateur graphique

Created by
  • Haebom

Auteur

Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li

Contour

Dans cet article, nous présentons Aria-UI, un nouveau modèle multimodal à grande échelle pour agents numériques qui automatise les tâches en manipulant directement des interfaces graphiques sur diverses plateformes. Aria-UI relève le défi de relier les instructions de langage aux éléments cibles en adoptant une approche purement visuelle, sans recourir aux entrées HTML ou AXTree. Il s'adapte aux instructions de plan hétérogènes grâce à un pipeline de données évolutif qui génère des échantillons d'instructions diversifiés et de haute qualité, et améliore l'inférence contextuelle en intégrant des historiques de tâches mixtes texte et texte-image pour gérer le contexte dynamique lors de l'exécution des tâches. Les résultats expérimentaux montrent qu'Aria-UI atteint des performances de pointe sur les bancs d'essai d'agents hors ligne et en ligne, surpassant les modèles existants basés uniquement sur la vision et AXTree. Toutes les données d'entraînement et les points de contrôle du modèle sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau modèle multimodal, Aria-UI, qui contribue à améliorer les performances des agents d'automatisation des tâches basés sur l'interface graphique.
La suppression de la dépendance aux entrées HTML ou AXTree permet un développement d'agent plus robuste et plus général.
Adaptabilité améliorée aux diverses instructions de travail grâce à des pipelines de données évolutifs.
Connectez les éléments cibles plus précisément grâce à l'inférence contextuelle exploitant l'historique des tâches de fusion de texte et de texte-image.
Présenter la possibilité d'un développement continu de la recherche grâce à la divulgation de sources ouvertes.
Limitations:
Dans cet article, nous avons évalué les performances d'Aria-UI sur divers benchmarks, mais une vérification supplémentaire de ses performances de généralisation dans divers environnements d'interface graphique réels peut être nécessaire.
Il peut y avoir un biais envers certains types d'interface graphique ou de tâches.
Limitations de l’évolutivité des pipelines de données et nécessité d’une gestion continue de la qualité des données.
Des recherches supplémentaires pourraient être nécessaires sur la capacité à traiter des instructions de tâches complexes et ambiguës.
👍