Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MagicGUI: un agente GUI móvil fundamental con canalización de datos escalable y ajuste de refuerzo

Created by
  • Haebom

Autor

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Xuanjing Huang, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

Describir

MagicGUI es un agente GUI móvil fundamental diseñado para abordar los desafíos críticos de la percepción, la construcción de cimientos y el razonamiento en entornos GUI móviles del mundo real. MagicGUI se basa en seis componentes clave: (1) un conjunto de datos completo y preciso generado mediante un flujo de datos GUI escalable (los datos multimodales centrados en GUI más grandes y diversos recopilados de repositorios de código abierto, rastreo automatizado y anotación manual dirigida); (2) capacidades perceptivas y de construcción de cimientos mejoradas que facilitan la alineación multimodal de grano fino para la referencia de elementos de la IU, la construcción de cimientos y la comprensión de la pantalla; (3) un espacio de acción completo y unificado que abarca tanto las tareas básicas de la IU como las intenciones de interacción complejas; (4) un mecanismo de inferencia impulsado por planes que puede descomponer instrucciones complejas del usuario en acciones secuenciales mediante inferencia de metaplanificación intermedia explícita; (5) un procedimiento de entrenamiento iterativo de dos etapas que combina el preentrenamiento continuo a gran escala en 7,8 millones de muestras con el ajuste fino del aprendizaje de refuerzo utilizando estrategias de recompensa compuesta y doble filtrado espacialmente mejoradas; y (6) logra un rendimiento competitivo en el punto de referencia propietario Magic-RICH y en más de una docena de puntos de referencia públicos, demostrando un rendimiento superior en las tareas de percepción de GUI y de agente, y demostrando una fuerte generalización y capacidad de implementación en el mundo real en escenarios de GUI móviles del mundo real, como se detalla en la Figura 1.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para resolver problemas de percepción, construcción fundamental e inferencia en entornos de GUI móviles del mundo real.
Rendimiento potente que aprovecha grandes conjuntos de datos de GUI multimodo.
La capacidad de realizar tareas complejas a través de mecanismos de razonamiento orientados a planes.
Excelente rendimiento de generalización que demuestra capacidad de implementación en entornos del mundo real.
Limitations:
Falta de una descripción detallada del rendimiento del benchmark propietario Magic-RICH.
Posibles limitaciones del rendimiento de generalización en varios entornos de GUI móviles.
Se necesita una validación adicional para demostrar la capacidad de afrontar situaciones inesperadas que puedan surgir en aplicaciones del mundo real.
Falta de discusión específica sobre la escalabilidad y mantenibilidad de las canalizaciones de datos.
👍