Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Dans cet article, nous proposons OS-Genesis, une nouvelle méthode permettant de relever les défis de la collecte de données de trajectoire de haute qualité pour l'entraînement d'agents d'interface utilisateur graphique (IHM) basés sur des modèles vision-langage (VLM). Les méthodes existantes reposent sur la supervision humaine ou des tâches prédéfinies pour générer des données synthétiques, ce qui est soit gourmand en ressources, soit limité dans la garantie de la qualité des données. OS-Genesis propose un nouveau pipeline de synthèse de données pour résoudre ces problèmes. Les agents perçoivent d'abord l'environnement et effectuent des interactions étape par étape, puis dérivent inversement des tâches de haute qualité pour permettre l'exploration au niveau de la trajectoire. La qualité des trajectoires générées est garantie par un modèle de récompense de trajectoire, et les résultats expérimentaux montrent que les agents d'interface utilisateur graphique entraînés avec OS-Genesis améliorent significativement leurs performances sur des benchmarks en ligne exigeants. Nous vérifions également l'efficacité d'OS-Genesis, ainsi que la qualité et la diversité supérieures de ses données par rapport aux méthodes de synthèse existantes, grâce à une analyse approfondie. Le code, les données et les points de contrôle sont accessibles au public.
Takeaways, Limitations
•
Takeaways:
◦
A contribué à résoudre le défi de la collecte de données de haute qualité pour la formation des agents d'interface graphique.
◦
Surmonter les limites des méthodes existantes de supervision humaine et de génération de données synthétiques.
◦
OS-Genesis permet une génération de données plus efficace, diversifiée et de haute qualité.
◦
Vérification des améliorations de performances des agents d'interface graphique dans des tests en ligne exigeants.
◦
Augmenter la reproductibilité et l’évolutivité de la recherche grâce à l’ouverture du code, des données et des points de contrôle.
•
Limitations:
◦
Les performances d'OS-Genesis peuvent être biaisées en faveur de certains types d'environnements ou de tâches d'interface graphique.
◦
Des recherches supplémentaires sont nécessaires sur la conception et l’optimisation du modèle de compensation de trajectoire.
◦
La difficulté de générer des données synthétiques qui reflètent parfaitement la complexité du monde réel.