Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CRAB: Referencia de agentes multientorno para agentes de modelos de lenguaje multimodal

Created by
  • Haebom

Autor

Tianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang, Xiang Yao, Zhiqiang Xie, Yongchao Chen, Shilong Liu, Bochen Qian, Anjie Yang, Zhaoxuan Jin, Jianbo Deng, Philip Torr, Bernard Ghanem, Guohao Li

Describir

En este artículo, presentamos Crab, un novedoso marco de referencia para modelos de lenguaje multimodal (MLM). Este marco se centra en el desarrollo de agentes autónomos que realizan tareas descritas en lenguaje natural en diversos entornos GUI (sitios web, ordenadores y dispositivos móviles). Para superar las limitaciones de los marcos de referencia existentes, como su enfoque en un solo entorno, la falta de métodos de evaluación detallados y generalizados, y la complejidad de las configuraciones de tareas y evaluadores, Crab admite tareas multientorno e integra métodos de evaluación de grano fino basados ​​en grafos, así como mecanismos eficientes de configuración de tareas y evaluadores. Es fácilmente escalable a diversos entornos mediante una interfaz Python. Presentamos Crab Benchmark-v0, que consta de 120 tareas en entornos de escritorio y móviles, y evaluamos cuatro MLM avanzados, incluyendo GPT-4o, en configuraciones de sistemas monoagente y multiagente. Demostramos que GPT-4o, con un solo agente, alcanza el mejor rendimiento con una tasa de finalización del 38,01 %. Todo el código del marco de referencia, el código del agente y los conjuntos de datos de tareas están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Proporciona el primer marco de referencia de agentes que admite operaciones entre entornos.
Presentación de un método de evaluación detallado basado en gráficos y un mecanismo eficiente de configuración de tareas y evaluadores
Capacidad de comparar y analizar el rendimiento de los agentes MLM en diversos entornos (computadora de escritorio, dispositivo móvil)
Contribuir a la activación de la investigación de agentes MLM a través de código abierto y conjuntos de datos
Limitations:
El punto de referencia actual consta de 120 tareas, y es necesario agregar tareas más diversas y amplias.
A pesar del perfeccionamiento de los métodos de evaluación, es difícil obtener una evaluación que coincida perfectamente con la experiencia de los usuarios reales.
Existe dependencia de MLM específicos, y se necesitan pruebas y comparaciones adicionales de otros modelos de MLM para evaluar el desempeño de la generalización.
👍