Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Dans cet article, nous présentons Crab, un nouveau framework de benchmark pour les modèles de langage multimodaux (MLM) axé sur le développement d'agents autonomes exécutant des tâches décrites en langage naturel dans divers environnements d'interface utilisateur graphique (sites web, ordinateurs de bureau et mobiles). Pour pallier les limites des benchmarks existants, à savoir la focalisation sur un environnement unique, le manque de méthodes d'évaluation détaillées et généralisées, et la complexité des configurations de tâches et d'évaluateurs, Crab prend en charge les tâches inter-environnements et intègre des méthodes d'évaluation fines basées sur des graphes ainsi que des mécanismes efficaces de configuration de tâches et d'évaluateurs. Facilement évolutif vers différents environnements grâce à une interface Python, il présente Crab Benchmark-v0, qui comprend 120 tâches dans des environnements de bureau et mobiles, et évalue quatre MLM avancés, dont GPT-4o, dans des configurations de systèmes mono et multi-agents. L'agent unique GPT-4o atteint les meilleures performances avec un taux d'achèvement de 38,01 %. L'ensemble du code du framework, du code de l'agent et des jeux de données de tâches est accessible au public.
Takeaways, Limitations
•
Takeaways:
◦
Fournit le premier cadre de référence d'agent prenant en charge les opérations inter-environnements
◦
Présentation d'une méthode d'évaluation détaillée basée sur des graphiques et d'un mécanisme efficace de configuration des tâches et des évaluateurs
◦
Capacité à comparer et à analyser les performances des agents MLM dans différents environnements (bureau, mobile)
◦
Contribuer à l'activation de la recherche d'agents MLM grâce à du code ouvert et des ensembles de données
•
Limitations:
◦
Le référentiel actuel comprend 120 tâches, et des tâches plus diversifiées et plus étendues doivent être ajoutées.
◦
Malgré le raffinement des méthodes d’évaluation, il est difficile d’obtenir une évaluation qui corresponde parfaitement à l’expérience des utilisateurs réels.
◦
Il existe une dépendance à l’égard de modèles MLM spécifiques, et des tests et comparaisons supplémentaires d’autres modèles MLM sont nécessaires pour évaluer les performances de généralisation.