Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DiMo-GUI: Mejora del escalado en tiempo de prueba en la puesta a tierra de la GUI mediante razonamiento visual con reconocimiento de modalidades

Created by
  • Haebom

Autor

Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang

Describir

Este artículo aborda el problema del modelado basado en consultas de lenguaje natural en interfaces gráficas de usuario (GUI), que a menudo presentan una variedad de elementos visuales, desorden espacial y ambigüedad lingüística. Presentamos DiMo-GUI, un marco de trabajo basado en GUI sin entrenamiento, que aprovecha dos estrategias principales: optimización visual dinámica y optimización basada en modalidades. En lugar de procesar la GUI como una sola imagen, la entrada se divide en elementos textuales e iconográficos, y se utiliza un modelo común de visión y lenguaje para inferir cada modalidad de forma independiente. Cuando la predicción es ambigua o incorrecta, DiMo-GUI centra la atención dinámicamente generando regiones de enfoque candidatas centradas en la predicción inicial del modelo y expandiéndolas progresivamente a subregiones para mejorar los resultados subyacentes. Este proceso de refinamiento jerárquico ayuda a resolver la ambigüedad en diseños visualmente desordenados sin necesidad de entrenamiento ni anotaciones adicionales. Evaluamos nuestro enfoque en pruebas de rendimiento estándar basadas en GUI y demostramos mejoras consistentes con respecto a los procesos de inferencia de referencia, destacando la eficacia de combinar la separación de modalidades y la inferencia centrada en regiones.

Takeaways, Limitations

Takeaways:
Presentamos un marco basado en GUI que no requiere aprendizaje, lo que reduce el costo de recopilación y anotación de datos.
Al combinar la separación de modalidades y el razonamiento centrado en el dominio, podemos procesar de manera efectiva consultas en lenguaje natural incluso en GUI visualmente saturadas.
Demostramos experimentalmente que mejora el rendimiento con respecto a las canalizaciones de inferencia existentes.
Limitations:
Se requiere mayor investigación para determinar el rendimiento de generalización del método propuesto. Su robustez ante diversos diseños y complejidades de GUI debe verificarse con mayor detalle.
El rendimiento puede disminuir con ciertos tipos de GUI o consultas. Se requiere una experimentación más exhaustiva para comprender mejor Limitations.
Se necesita un análisis más profundo del rendimiento y la eficiencia del procesamiento para GUI complejas o consultas ambiguas.
👍