Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aria-UI: Base visual para instrucciones GUI

Created by
  • Haebom

Autor

Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li

Describir

En este artículo, presentamos Aria-UI, un novedoso modelo multimodal a gran escala para agentes digitales que automatiza tareas mediante la manipulación directa de GUI en diversas plataformas. Aria-UI aborda el reto de vincular instrucciones de lenguaje con elementos de destino mediante un enfoque puramente visual, sin depender de entradas HTML o AXTree. Se adapta a instrucciones de plan heterogéneas mediante un flujo de datos escalable que genera muestras de instrucciones diversas y de alta calidad, y mejora la inferencia contextual mediante la integración de historiales de tareas de texto mixto y texto-imagen para gestionar el contexto dinámico durante la ejecución de tareas. Los resultados experimentales muestran que Aria-UI alcanza un rendimiento excepcional en las pruebas de referencia de agentes tanto online como offline, superando a los modelos existentes basados ​​en AXTree y solo en visión. Todos los datos de entrenamiento y los puntos de control del modelo están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un novedoso modelo multimodal, Aria-UI, que contribuye a mejorar el rendimiento de los agentes de automatización de tareas basados ​​en GUI.
Eliminar la dependencia de las entradas HTML o AXTree permite un desarrollo de agente más sólido y general.
Adaptabilidad mejorada a diversas instrucciones de trabajo a través de canales de datos escalables.
Conecte elementos de destino con mayor precisión con inferencia consciente del contexto aprovechando el historial de tareas de combinación de texto e imágenes.
Presentando la posibilidad de desarrollo continuo de investigación a través de la divulgación de código abierto.
Limitations:
En este artículo, evaluamos el rendimiento de Aria-UI en varios puntos de referencia, pero puede ser necesaria una verificación adicional de su rendimiento de generalización en varios entornos GUI reales.
Puede haber sesgo hacia ciertos tipos de GUI o tareas.
Limitaciones en la escalabilidad de las cadenas de datos y necesidad de una gestión continua de la calidad de los datos.
Tal vez se necesiten más investigaciones sobre la capacidad de procesar instrucciones de tareas complejas y ambiguas.
👍