Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprovechamiento de los modelos de visión y lenguaje para la fundamentación visual y el análisis de la interfaz de usuario automotriz

Created by
  • Haebom

Autor

Benjamín Raphaël Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

Describir

Este artículo presenta un marco de visión y lenguaje que proporciona una solución inteligente y adaptativa para adaptarse a diversos cambios en el diseño de la interfaz de usuario (UI) en sistemas de infoentretenimiento automotriz. Facilita la comprensión e interacción con las IU automotrices, permitiendo una adaptación fluida a diversos diseños de UI. Para lograrlo, publicamos el conjunto de datos de código abierto AutomotiveUI-Bench-4K, compuesto por 998 imágenes y 4208 anotaciones, y presentamos una secuencia de datos para la generación de datos de entrenamiento. Ajustamos un modelo basado en Molmo-7B mediante LoRa (adaptación de bajo rango) y desarrollamos un Modelo Evaluativo de Gran Acción (ELAM) mediante la integración de funciones visuales y de evaluación. El ELAM desarrollado alcanza un alto rendimiento en AutomotiveUI-Bench-4K y, en particular, supera al modelo base en un 5,6 % en la tarea ScreenSpot (precisión promedio del 80,8 %). Su rendimiento es similar o superior al de los modelos especializados para plataformas de escritorio, móviles y web, y a pesar de estar entrenado principalmente en el ámbito automotriz, demuestra una excelente generalización del dominio. Este estudio presenta una dirección para los avances basados en IA en la comprensión e interacción de la interfaz de usuario automotriz a través de la recopilación y el ajuste de datos, proporcionando un modelo perfeccionado que puede implementarse en GPU de nivel de consumidor de manera rentable.

Takeaways, Limitations

Takeaways:
Presentamos un marco de lenguaje de visión que puede adaptarse a diversos cambios de diseño en la interfaz de usuario automotriz.
Facilitación de la investigación mediante la publicación del conjunto de datos de código abierto AutomotiveUI-Bench-4K
Presentamos un método de ajuste fino rentable basado en LoRa y verificamos la viabilidad de implementar GPU de nivel de consumidor.
Se demostró un rendimiento mejorado y capacidades de generalización de dominio superiores en comparación con los modelos existentes en la tarea ScreenSpot.
Se presentan avances basados en IA para comprender e interactuar con las interfaces de usuario de automóviles.
Limitations:
Es necesario ampliar aún más el tamaño del conjunto de datos (998 imágenes pueden no ser suficientes para reflejar adecuadamente diversas situaciones).
Existe la posibilidad de que haya sesgo hacia diseños de interfaz de usuario de automóviles específicos.
Falta de verificación del rendimiento en entornos de conducción reales
Posible falta de soporte para varios idiomas y consideración de las diferencias culturales
Se necesitan más investigaciones sobre la degradación del rendimiento y la estabilidad que puede ocurrir con el uso a largo plazo.
👍