[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CRAB: Referencia de agentes multientorno para agentes de modelos de lenguaje multimodal

Created by
  • Haebom

Autor

Tianqi Xu, Linyao Chen, Dai-Jie Wu, Yanjun Chen, Zecheng Zhang, Xiang Yao, Zhiqiang Xie, Yongchao Chen, Shilong Liu, Bochen Qian, Anjie Yang, Zhaoxuan Jin, Jianbo Deng, Philip Torr, Bernard Ghanem, Guohao Li

Describir

Este artículo presenta Crab, un novedoso marco de referencia para modelos de lenguaje multimodal (MLM) utilizado en el desarrollo de agentes autónomos que realizan tareas descritas en lenguaje natural en diversos entornos GUI (sitios web, ordenadores y dispositivos móviles). Para superar las limitaciones de los marcos de referencia existentes, como su enfoque en un solo entorno, la falta de métodos de evaluación detallados y generalizados, y la complejidad de las configuraciones de tareas y evaluadores, Crab integra tareas multientorno compatibles con diversos entornos, un método de evaluación de grano fino basado en grafos y un mecanismo eficiente de configuración de tareas y evaluadores. Es extensible a diversos entornos mediante una interfaz Python, y desarrollamos Crab Benchmark-v0, que consta de 120 tareas en entornos de escritorio y móviles, para evaluar cuatro MLM avanzados en configuraciones de sistemas con uno o varios agentes. Como resultado, un solo agente que utiliza GPT-4o alcanzó la tasa de finalización más alta, del 38,01 %. Todos los códigos del marco de referencia, los códigos de los agentes y los conjuntos de datos de tareas están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Proporcionar un marco de evaluación de agentes entre entornos que admita varios entornos GUI
Evaluación precisa y detallada posible mediante un método de evaluación detallada basado en gráficos
Amplíe fácilmente los puntos de referencia con mecanismos eficientes de generación de tareas y evaluadores
Establecer una línea base para comparar y analizar el desempeño de varios agentes de MLM
Mayor reproducibilidad y escalabilidad de la investigación mediante código abierto y conjuntos de datos
Limitations:
El punto de referencia actual consta de 120 tareas, pero se necesitan más tareas y entornos más diversos.
Limitaciones de las métricas de evaluación: Si la evaluación utiliza solo la tasa de finalización, es necesario considerar otras métricas (eficiencia, precisión, etc.).
Posibilidad de resultados sesgados hacia MLM específicos: Necesidad de agregar modelos MLM más diversos para garantizar la objetividad
Soporte para entornos limitados a la interfaz de Python: Necesidad de ampliar el soporte para otros lenguajes
👍