Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de la percepción activa mediante la optimización de preferencias autoevolutiva para la puesta a tierra de la GUI

Created by
  • Haebom

Autor

Wanfu Wang, Qipeng Huang, Guangquan Xue, Xiaobo Liang, Juntao Li

Describir

Este artículo propone el marco LASER para abordar el problema de la inferencia efectiva de regiones de imagen para Modelos de Lenguaje de Visión (VLM), un desafío clave en tareas de base de GUI bajo entradas de alta resolución e interacciones visuales complejas de múltiples elementos. LASER integra la estimación de calidad de Monte Carlo y la evaluación de la calidad de la región basada en IoU para dotar progresivamente a los VLM con capacidades perceptuales multinivel que mejoran tanto la precisión como la diversidad, permitiendo una predicción precisa de coordenadas. Esto permite que el modelo se centre en regiones clave relevantes para las instrucciones y asigne adaptativamente los pasos de inferencia según la complejidad de la tarea. Los resultados experimentales en los benchmarks ScreenSpot Pro y ScreenSpot-v2 demuestran la efectividad de LASER, demostrando su rendimiento entre modelos de escala 7B. Específicamente, LASER, optimizado en GTA1-7B, obtuvo una puntuación de 55.7 en el benchmark ScreenSpot-Pro.

Takeaways, Limitations

Takeaways:
Un marco eficaz para mejorar la capacidad perceptiva multinivel de los VLM (LASER)
Precisión y diversidad mejoradas mediante la combinación de la estimación de calidad de Monte Carlo y la evaluación basada en IoU.
Se mejoró el rendimiento de la interfaz gráfica de usuario con entradas de alta resolución e interacciones visuales complejas.
Alcanzando un nuevo máximo rendimiento en modelos a escala 7B
Limitations:
Las mejoras de rendimiento de LASER pueden estar limitadas a puntos de referencia específicos (ScreenSpot Pro, ScreenSpot-v2).
Se necesita una mayor validación del rendimiento de generalización en diferentes tipos de GUI y tareas.
Es necesario analizar los costes y la eficiencia computacional.
👍