Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ScienceBoard: Evaluación de agentes autónomos multimodales en flujos de trabajo científicos realistas

Created by
  • Haebom

Autor

Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu

Describir

Este artículo se centra en agentes informáticos que pueden interactuar de forma autónoma con diversas interfaces para acelerar el descubrimiento científico. Con este fin, presentamos ScienceBoard, un entorno multidominio realista que integra flujos de trabajo científicos. ScienceBoard contiene un punto de referencia de 169 tareas reales de alta calidad de diversos campos, como la bioquímica, la astronomía y la geoinformática. Los resultados de la evaluación del agente utilizando backbones de última generación como GPT-4o, Claude 3.7 y UI-TARS muestran que aún es insuficiente para apoyar de forma fiable a los científicos en flujos de trabajo complejos, con una tasa de éxito general de tan solo el 15 %. Sin embargo, esperamos que este análisis contribuya a la creación de agentes de descubrimiento científico más capaces en el futuro, abordando las limitaciones del agente y sugiriendo principios de diseño más eficaces. El código, el entorno y los puntos de referencia se pueden encontrar en https://qiushisun.github.io/ScienceBoard-Home/ .

Takeaways, Limitations

Takeaways:
Ofrecemos ScienceBoard, un entorno de referencia realista que ayuda a automatizar los flujos de trabajo científicos del mundo real en una amplia gama de disciplinas científicas.
Evaluamos el rendimiento y las limitaciones de los agentes LLM de última generación a través de tareas científicas del mundo real y sugerimos futuras direcciones de investigación.
Proporciona información valiosa sobre el estado actual y las direcciones futuras del desarrollo de agentes basados ​​en LLM para el descubrimiento científico.
Limitations:
Los agentes actuales basados ​​en LLM tienen una baja tasa de éxito del 15% en flujos de trabajo científicos complejos y aún no logran brindar un soporte confiable.
Si bien los puntos de referencia de ScienceBoard tienen un alcance amplio, es posible que no cubran completamente los flujos de trabajo en todas las disciplinas científicas.
Se necesita más investigación y desarrollo para mejorar el rendimiento del agente.
👍