Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ScienceBoard : Évaluation des agents autonomes multimodaux dans des flux de travail scientifiques réalistes

Created by
  • Haebom

Auteur

Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu

Contour

Cet article se concentre sur les agents informatiques capables d'interagir de manière autonome avec diverses interfaces afin d'accélérer la découverte scientifique. À cette fin, nous présentons ScienceBoard, un environnement multi-domaines réaliste intégrant des flux de travail scientifiques. ScienceBoard propose un benchmark de 169 tâches réelles de haute qualité, issues de domaines variés tels que la biochimie, l'astronomie et la géoinformatique. Les résultats de l'évaluation de l'agent, utilisant des architectures de pointe telles que GPT-4o, Claude 3.7 et UI-TARS, montrent qu'il est encore insuffisant pour accompagner de manière fiable les scientifiques dans des flux de travail complexes, avec un taux de réussite global de seulement 15 %. Cependant, nous espérons que cette analyse contribuera à la création d'agents de découverte scientifique plus performants à l'avenir, en remédiant à ses limites et en suggérant des principes de conception plus efficaces. Le code, l'environnement et les benchmarks sont disponibles à l'adresse https://qiushisun.github.io/ScienceBoard-Home/ .

Takeaways, Limitations

Takeaways:
Nous fournissons ScienceBoard, un environnement de référence réaliste qui aide à automatiser les flux de travail scientifiques du monde réel dans un large éventail de disciplines scientifiques.
Nous évaluons les performances et les limites des agents LLM de pointe à travers des tâches scientifiques réelles et suggérons des orientations de recherche futures.
Il fournit des informations précieuses sur l’état actuel et les orientations futures du développement d’agents basés sur le LLM pour la découverte scientifique.
Limitations:
Les agents actuels basés sur le LLM ont un faible taux de réussite de 15 % dans les flux de travail scientifiques complexes et ne parviennent toujours pas à fournir un support fiable.
Bien que les critères de référence de ScienceBoard aient une portée large, ils ne couvrent peut-être pas entièrement les flux de travail dans toutes les disciplines scientifiques.
Des recherches et développements supplémentaires sont nécessaires pour améliorer les performances des agents.
👍