Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
ZonUI-3B: Un modelo de lenguaje de visión ligero para la puesta a tierra de GUI de resolución cruzada
Created by
Haebom
Autor
ZongHan Hsieh, Tzer-Jen Wei, ShengJing Yang
Describir
ZonUI-3B es un modelo de lenguaje de visión (VLM) ligero, totalmente entrenable en una sola GPU de consumo (RTX 4090), con un rendimiento comparable al de modelos mucho más grandes en tareas de integración de GUI. Soluciona el problema de la escasez de datos en entornos de escritorio de alta resolución mediante un conjunto de datos multiplataforma y multirresolución de 24 000 ejemplos de diversas fuentes, incluyendo capturas de pantalla de GUI de dispositivos móviles, ordenadores y web. Mejora la adaptabilidad del modelo mediante una estrategia de ajuste fino en dos pasos: aprendizaje inicial multiplataforma y ajuste fino especial en datos de alta resolución, y demuestra que la diversidad de datos es más importante que la cantidad mediante una estrategia de reducción de redundancia. Logra una excelente precisión (84,9 % para ScreenSpot, 86,4 % para ScreenSpot-v2 y 86,4 % para ScreenSpot-Pro) en benchmarks como ScreenSpot, ScreenSpot-v2 y ScreenSpot-Pro, superando a los modelos existentes con menos de 4 000 millones de parámetros. Los estudios de ablación verifican que el muestreo balanceado y el ajuste fino en dos pasos desempeñan un papel importante en la mejora de la robustez en escenarios de escritorio de alta resolución. El modelo está disponible en https://github.com/Han1018/ZonUI-3B .
Desarrollo exitoso de un VLM liviano que logra un rendimiento similar al de los modelos a gran escala en una sola GPU de consumo.
◦
Mejora efectiva de la comprensión y adaptabilidad de la GUI a través de conjuntos de datos multiplataforma y de múltiples resoluciones y una estrategia de ajuste fino de dos pasos.
◦
Enfatizar la importancia de la diversidad de datos y aumentar la eficiencia de los datos reduciendo la redundancia.
◦
Se logró un excelente desempeño en tareas de conexión a tierra de GUI (ScreenSpot 84,9%, ScreenSpot-v2 86,4%).
◦
Mejorar la accesibilidad mediante la divulgación de código abierto.
•
Limitations:
◦
El tamaño del conjunto de datos aún puede ser limitado (24 000 ejemplos). Es posible que se pueda mejorar el rendimiento al usar un conjunto de datos más grande.
◦
Es posible que se necesiten investigaciones adicionales sobre el rendimiento de generalización para tipos específicos de GUI o resoluciones específicas.
◦
Si bien muestra ventajas de rendimiento en comparación con modelos con menos de 4B parámetros, puede faltar un análisis comparativo con modelos mucho más grandes.
◦
Se requiere una evaluación del rendimiento adicional en entornos de aplicación reales.