Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo presenta Crab, un novedoso marco de referencia para modelos de lenguaje multimodal (MLM) utilizado en el desarrollo de agentes autónomos que realizan tareas descritas en lenguaje natural en diversos entornos GUI (sitios web, ordenadores y dispositivos móviles). Para superar las limitaciones de los marcos de referencia existentes, como su enfoque en un solo entorno, la falta de métodos de evaluación detallados y generalizados, y la complejidad de las configuraciones de tareas y evaluadores, Crab integra tareas multientorno compatibles con diversos entornos, un método de evaluación de grano fino basado en grafos y un mecanismo eficiente de configuración de tareas y evaluadores. Es extensible a diversos entornos mediante una interfaz Python, y desarrollamos Crab Benchmark-v0, que consta de 120 tareas en entornos de escritorio y móviles, para evaluar cuatro MLM avanzados en configuraciones de sistemas con uno o varios agentes. Como resultado, un solo agente que utiliza GPT-4o alcanzó la tasa de finalización más alta, del 38,01 %. Todos los códigos del marco de referencia, los códigos de los agentes y los conjuntos de datos de tareas están disponibles públicamente.
Takeaways, Limitations
•
Takeaways:
◦
Proporcionar un marco de evaluación de agentes entre entornos que admita varios entornos GUI
◦
Evaluación precisa y detallada posible mediante un método de evaluación detallada basado en gráficos
◦
Amplíe fácilmente los puntos de referencia con mecanismos eficientes de generación de tareas y evaluadores
◦
Establecer una línea base para comparar y analizar el desempeño de varios agentes de MLM
◦
Mayor reproducibilidad y escalabilidad de la investigación mediante código abierto y conjuntos de datos
•
Limitations:
◦
El punto de referencia actual consta de 120 tareas, pero se necesitan más tareas y entornos más diversos.
◦
Limitaciones de las métricas de evaluación: Si la evaluación utiliza solo la tasa de finalización, es necesario considerar otras métricas (eficiencia, precisión, etc.).
◦
Posibilidad de resultados sesgados hacia MLM específicos: Necesidad de agregar modelos MLM más diversos para garantizar la objetividad
◦
Soporte para entornos limitados a la interfaz de Python: Necesidad de ampliar el soporte para otros lenguajes