En este artículo, presentamos Aria-UI, un novedoso modelo multimodal a gran escala para agentes digitales que automatiza tareas mediante la manipulación directa de GUI en diversas plataformas. Aria-UI aborda el reto de vincular instrucciones de lenguaje con elementos de destino mediante un enfoque puramente visual, sin depender de entradas HTML o AXTree. Se adapta a instrucciones de plan heterogéneas mediante un flujo de datos escalable que genera muestras de instrucciones diversas y de alta calidad, y mejora la inferencia contextual mediante la integración de historiales de tareas de texto mixto y texto-imagen para gestionar el contexto dinámico durante la ejecución de tareas. Los resultados experimentales muestran que Aria-UI alcanza un rendimiento excepcional en las pruebas de referencia de agentes tanto online como offline, superando a los modelos existentes basados en AXTree y solo en visión. Todos los datos de entrenamiento y los puntos de control del modelo están disponibles públicamente.