B-MoCA es un nuevo punto de referencia para evaluar el rendimiento de los agentes de control de dispositivos móviles. Se basa en el sistema operativo Android y contiene 131 tareas comunes. Evalúa el rendimiento de la generalización modificando aleatoriamente la configuración del dispositivo móvil, como el diseño de la interfaz de usuario y la configuración de idioma. Compara diversos agentes, incluyendo agentes que utilizan modelos de lenguaje a gran escala (LLM) o LLM multimodales, y agentes entrenados por aprendizaje por imitación mediante demostraciones de expertos. Muestra que los agentes son eficaces en tareas sencillas, pero tienen un rendimiento deficiente en tareas complejas, lo que sugiere importantes áreas de investigación para el futuro. El código fuente está disponible públicamente.