Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration des agents d'interface utilisateur graphique mobile : une approche axée sur les vérificateurs pour un déploiement pratique

Created by
  • Haebom

Auteur

Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

Contour

V-Droid est un agent d'automatisation de tâches basé sur une interface utilisateur graphique mobile. Contrairement aux LLM traditionnels qui génèrent directement des actions pour chaque étape, V-Droid utilise les LLM comme vérificateurs pour évaluer les actions candidates. Pour ce faire, nous présentons un framework complet comprenant un workflow dédié à la création et au pré-remplissage d'un espace d'action discrétisé, un apprentissage interactif des préférences de progression et un schéma d'annotation conjoint homme-agent évolutif. Sur plusieurs benchmarks d'automatisation de tâches mobiles, dont AndroidWorld, AndroidLab et MobileAgentBench, V-Droid obtient des taux de réussite plus élevés (59,5 %, 38,3 % et 49 %, respectivement) et une vitesse de traitement nettement supérieure (4,3 secondes par étape, soit 6,1 fois plus rapide que les agents existants). Le code source est disponible sur GitHub.

Takeaways, Limitations_

Takeaways:
Un nouveau paradigme d’agent mobile utilisant LLM comme vérificateur est présenté.
Obtenez des taux de réussite des tâches plus élevés et une latence plus faible par rapport aux agents existants.
Proposer une méthode d'annotation collaborative évolutive pour une collecte de données efficace
Augmenter la reproductibilité de la recherche et le potentiel de développement grâce à la divulgation de sources ouvertes.
Limitations:
Seuls les résultats de l’évaluation des performances pour des critères de référence spécifiques sont présentés, ce qui nécessite des recherches supplémentaires sur la généralisabilité.
Manque d'analyse détaillée des performances du vérificateur
Une validation supplémentaire est nécessaire pour l’applicabilité à divers types de tâches mobiles.
👍