[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GUI-G$^2$: Modelado de recompensa gaussiana para la puesta a tierra de la GUI

Created by
  • Haebom

Autor

Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

Describir

Este artículo aborda el problema de la conexión a tierra de las GUI, que vincula los comandos de lenguaje natural con ubicaciones precisas en las interfaces gráficas de usuario (GUI). Los enfoques existentes basados en el aprendizaje por refuerzo utilizan recompensas binarias que tratan los elementos como aciertos/errores, generando señales dispersas que ignoran la naturaleza continua de las interacciones espaciales. En este artículo, proponemos un marco de recompensa basado en principios, denominado Recompensas de Conexión a Tierra Gaussiana de la GUI (GUI-G$^2$), que modela los elementos de la GUI como distribuciones gaussianas continuas en el plano de la interfaz, basándonos en la observación de que el comportamiento humano de clic forma una distribución gaussiana centrada en los elementos objetivo. GUI-G$^2$ integra dos mecanismos sinérgicos: la recompensa puntual gaussiana, que modela la localización precisa mediante una distribución exponencialmente decreciente centrada en el punto central del elemento, y la recompensa de cobertura, que evalúa la alineación espacial midiendo la superposición entre la distribución gaussiana predicha y la región objetivo. Para gestionar diferentes tamaños de elementos, desarrollamos un mecanismo de distribución adaptativo que ajusta la distribución de la recompensa en función de su dimensionalidad. Este marco transforma la base de la GUI de una clasificación binaria dispersa a una optimización continua densa, donde las distribuciones gaussianas generan señales de gradiente ricas que guían al modelo hacia posiciones de interacción óptimas. Experimentos exhaustivos con las pruebas de referencia de ScreenSpot, ScreenSpot-v2 y ScreenSpot-Pro demuestran que GUI-G$^2$ supera significativamente al método de vanguardia UI-TARS-72B, logrando la mayor mejora del 24,7 % en ScreenSpot-Pro. Nuestro análisis demuestra que el modelado continuo proporciona una robustez superior a los cambios de interfaz y una generalización mejorada a diseños no vistos, abriendo un nuevo paradigma para el razonamiento espacial en tareas de interacción con GUI.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para el problema de conexión a tierra de la GUI: solución del tradicional problema de la señal de recompensa dispersa a través de un marco de recompensa que utiliza distribuciones gaussianas continuas.
Conseguir un rendimiento de vanguardia: mejoras de rendimiento respecto a los métodos existentes en puntos de referencia como ScreenSpot.
Se mejoró la robustez y el rendimiento de generalización ante cambios de interfaz y de diseño.
Introduciendo un nuevo paradigma para el razonamiento espacial.
Limitations:
Falta de análisis del coste computacional y la complejidad del método propuesto.
Se necesita más investigación sobre el rendimiento de generalización para diferentes tipos de elementos e interacciones de GUI.
Se requiere evaluación del rendimiento y verificación de la estabilidad en entornos de aplicación reales.
👍