Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MagicGUI : un agent d'interface utilisateur graphique mobile fondamental avec pipeline de données évolutif et renforcement du réglage fin

Created by
  • Haebom

Auteur

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Xuanjing Huang, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

Contour

MagicGUI est un agent d'interface utilisateur graphique mobile fondamental conçu pour relever les défis critiques de la perception, de la construction des fondations et du raisonnement dans les environnements d'interface utilisateur graphique mobiles réels. MagicGUI repose sur six composants clés : (1) un ensemble de données complet et précis, construit via un pipeline de données d'interface utilisateur graphique évolutif (les données multimodales centrées sur l'interface utilisateur les plus vastes et les plus diversifiées, collectées à partir de référentiels open source, avec exploration automatisée et annotation manuelle ciblée) ; (2) des capacités de perception et de construction des fondations améliorées qui facilitent un alignement multimodal précis pour la référence des éléments d'interface utilisateur, la construction des fondations et la compréhension de l'écran ; (3) un espace d'action complet et unifié qui englobe à la fois les tâches d'interface utilisateur de base et les intentions d'interaction complexes ; (4) un mécanisme d'inférence piloté par plan qui peut décomposer des instructions utilisateur complexes en actions séquentielles à l'aide d'une inférence de méta-planification intermédiaire explicite ; (5) une procédure d'apprentissage itérative en deux étapes qui combine un pré-apprentissage continu à grande échelle sur 7,8 millions d'échantillons avec un réglage fin par apprentissage par renforcement utilisant des stratégies de récompense composée et de double filtrage spatialement améliorées ; et (6) réalise des performances compétitives sur le benchmark propriétaire Magic-RICH et sur plus d'une douzaine de benchmarks publics, démontrant des performances supérieures dans la perception de l'interface utilisateur graphique et les tâches de l'agent, et démontrant une forte généralisation et une déployabilité dans le monde réel dans des scénarios d'interface utilisateur graphique mobile réels, comme détaillé dans la figure 1.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche pour résoudre les problèmes de perception, de construction fondamentale et d'inférence dans les environnements d'interface utilisateur graphique mobile du monde réel.
Des performances puissantes exploitant de grands ensembles de données d'interface utilisateur graphique multimodes.
La capacité d’effectuer des tâches complexes grâce à des mécanismes de raisonnement orientés vers la planification.
Excellentes performances de généralisation démontrant la déployabilité dans des environnements réels.
Limitations:
Manque de description détaillée des performances du benchmark propriétaire Magic-RICH.
Limitations possibles des performances de généralisation dans divers environnements d'interface utilisateur graphique mobile.
Une validation supplémentaire est nécessaire pour démontrer la capacité à faire face à des situations inattendues qui peuvent survenir dans des applications réelles.
Manque de discussion spécifique sur l’évolutivité et la maintenabilité des pipelines de données.
👍