En este artículo, presentamos Crab, un novedoso marco de referencia para modelos de lenguaje multimodal (MLM). Este marco se centra en el desarrollo de agentes autónomos que realizan tareas descritas en lenguaje natural en diversos entornos GUI (sitios web, ordenadores y dispositivos móviles). Para superar las limitaciones de los marcos de referencia existentes, como su enfoque en un solo entorno, la falta de métodos de evaluación detallados y generalizados, y la complejidad de las configuraciones de tareas y evaluadores, Crab admite tareas multientorno e integra métodos de evaluación de grano fino basados en grafos, así como mecanismos eficientes de configuración de tareas y evaluadores. Es fácilmente escalable a diversos entornos mediante una interfaz Python. Presentamos Crab Benchmark-v0, que consta de 120 tareas en entornos de escritorio y móviles, y evaluamos cuatro MLM avanzados, incluyendo GPT-4o, en configuraciones de sistemas monoagente y multiagente. Demostramos que GPT-4o, con un solo agente, alcanza el mejor rendimiento con una tasa de finalización del 38,01 %. Todo el código del marco de referencia, el código del agente y los conjuntos de datos de tareas están disponibles públicamente.