Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente une nouvelle approche pour la conception d'agents autonomes pour les interfaces utilisateur graphiques (IUG) dans des domaines spécialisés tels que le calcul scientifique. Cette approche surmonte les limites des agents généraux et experts existants dans les situations exigeant à la fois une planification à long terme et une exécution précise. Alors que les approches existantes doivent faire un compromis entre capacités de planification et d'exécution, nous présentons CODA, un cadre de travail compositionnel et apprenant qui intègre un planificateur général (Cerebrum) et un exécuteur expert (Cerebellum). CODA est entraîné via un pipeline en deux étapes. Lors de la première étape, la spécialisation, les planificateurs experts sont entraînés individuellement pour chaque application scientifique. Lors de la deuxième étape, la généralisation, toutes les trajectoires réussies sont agrégées et utilisées pour le réglage fin supervisé du planificateur final. Cela garantit à CODA une exécution robuste et des capacités de généralisation inter-domaines. Sur quatre tâches du benchmark ScienceBoard, CODA surpasse nettement les méthodes existantes et atteint les meilleures performances parmi les modèles open source.
Takeaways, Limitations
•
Takeaways:
◦
Une nouvelle approche pour améliorer les performances des agents autonomes GUI en calcul scientifique.
◦
Surmonter les limitations existantes en combinant des compétences générales de planification avec des compétences d'exécution professionnelles
◦
Adaptabilité grâce à l'expérience grâce à un cadre apprenable et configurable
◦
Obtenez des performances efficaces même dans des environnements de données limités
◦
Les meilleures performances parmi les modèles open source
•
Limitations:
◦
Une évaluation plus approfondie de la généralisabilité du cadre proposé est nécessaire.
◦
La vérification de l'évolutivité est requise pour divers domaines scientifiques et environnements d'interface utilisateur graphique plus complexes.
◦
Une évaluation des performances sur des critères de référence autres que le critère ScienceBoard est requise.
◦
Il est nécessaire d'évaluer la dépendance à la qualité des données de formation