Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MagicGUI: un agente GUI móvil fundamental con canalización de datos escalable y ajuste de refuerzo

Created by
  • Haebom

Autor

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Xuanjing Huang, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

Describir

MagicGUI es un agente de GUI móvil fundamental, diseñado para abordar los desafíos críticos de percepción, desarrollo de bases e inferencia en entornos de GUI móviles reales. Consta de seis componentes principales: (1) un conjunto de datos completo y preciso, generado mediante una canalización de datos de GUI escalable que agrega los datos multimodales más extensos y diversos centrados en GUI, recopilados de repositorios de código abierto, rastreo automatizado y anotaciones manuales específicas; (2) capacidades mejoradas de percepción y desarrollo de bases que facilitan una alineación multimodal precisa para la referencia de elementos de la IU, el desarrollo de bases y la comprensión de la pantalla; (3) un espacio de tareas completo y unificado que abarca tanto tareas básicas de IU como intenciones de interacción complejas, facilitando la interacción entre el usuario y el agente; (4) un mecanismo de inferencia basado en planes que permite al modelo descomponer instrucciones complejas del usuario en acciones secuenciales mediante inferencia de metaplanificación intermedia explícita; y (5) un procedimiento de entrenamiento iterativo de dos pasos que combina el preentrenamiento continuo a gran escala con 7,8 millones de muestras y el ajuste fino mediante aprendizaje de refuerzo mediante estrategias de recompensa compuesta y doble filtrado espacialmente mejoradas. (6) Logra un rendimiento competitivo en el punto de referencia propietario Magic-RICH y en más de una docena de puntos de referencia públicos, logrando un excelente rendimiento en las tareas de percepción de GUI y de agente, y demostrando una fuerte generalización y capacidad de implementación en el mundo real en escenarios de GUI móviles del mundo real, como se detalla en la Figura 1.

Takeaways, Limitations

Takeaways:
Mejora del rendimiento de los agentes GUI móviles mediante conjuntos de datos GUI multimodales a gran escala.
Interacciones de interfaz de usuario precisas y eficientes a través de una mejor percepción y capacidades de creación de bases.
La capacidad de realizar tareas complejas a través de mecanismos de razonamiento orientados a planes.
Fuerte generalización y capacidad de implementación en entornos móviles del mundo real.
Consiga un rendimiento excelente en diversos puntos de referencia.
Limitations:
Posible pérdida de objetividad debido al desarrollo interno del benchmark Magic-RICH.
Posibilidad de un rendimiento de generalización deficiente debido al sesgo del conjunto de datos.
Se necesita más investigación sobre la capacidad de manejar excepciones en entornos del mundo real.
Posible aumento del coste computacional debido a la complejidad del agente.
👍