Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SEAgent : Agent d'utilisation d'ordinateur auto-évolutif avec apprentissage autonome par l'expérience

Created by
  • Haebom

Auteur

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

Contour

Cet article propose SEAgent, un framework pour agents informatisés (AIC) qui apprennent et évoluent de manière autonome dans de nouveaux environnements logiciels sans intervention humaine. Basé sur des modèles vision-langage à grande échelle (LVLM), SEAgent apprend de nouveaux logiciels par apprentissage expérientiel par essais-erreurs. Il apprend en exécutant des tâches générées automatiquement, du plus simple au plus complexe, en utilisant un modèle d'état mondial pour une évaluation détaillée du parcours étape par étape et un générateur de programmes pour générer des tâches de plus en plus diversifiées et exigeantes. La politique de l'agent est mise à jour par imitation contradictoire pour les actions échouées et par optimisation de politique relative de groupe (GRPO) pour les actions réussies. De plus, nous développons un AIC généralisant robuste, capable d'une évolution autonome continue grâce à une stratégie de généralisation experte intégrant les connaissances empiriques d'agents spécialisés. Nous validons l'efficacité de SEAgent sur cinq nouveaux environnements logiciels au sein d'OS-World, améliorant le taux de réussite de 23,2 % (de 11,3 % à 34,5 %) par rapport à UI-TARS, un CUA open source existant.

Takeaways, Limitations

Takeaways:
Démontre le potentiel de CUA à apprendre et à s’adapter à de nouveaux logiciels sans intervention humaine.
Fournit des stratégies d’apprentissage efficaces grâce à l’apprentissage expérientiel et au générateur de programmes.
Obtenir des améliorations générales des performances de l’UCA grâce à des stratégies de généralisation par les experts.
Des améliorations de performances significatives ont été obtenues par rapport au CUA existant.
Limitations:
ÉTant donné qu’il n’a été validé que dans un environnement spécifique appelé OS-World, des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité.
Une validation supplémentaire des performances dans des environnements logiciels complexes et réels est requise.
Il est possible que la conception du modèle d’état mondial et du générateur de programmes soit optimisée pour un environnement spécifique.
Une analyse plus approfondie est nécessaire pour répondre à l’imprévisibilité potentielle qui peut survenir au cours du processus d’apprentissage de l’agent.
👍