Este artículo presenta un marco de visión y lenguaje que proporciona una solución inteligente y adaptativa para adaptarse a diversos cambios en el diseño de la interfaz de usuario (UI) en sistemas de infoentretenimiento automotriz. Facilita la comprensión e interacción con las IU automotrices, permitiendo una adaptación fluida a diversos diseños de UI. Para lograrlo, publicamos el conjunto de datos de código abierto AutomotiveUI-Bench-4K, compuesto por 998 imágenes y 4208 anotaciones, y presentamos una secuencia de datos para la generación de datos de entrenamiento. Ajustamos un modelo basado en Molmo-7B mediante LoRa (adaptación de bajo rango) y desarrollamos un Modelo Evaluativo de Gran Acción (ELAM) mediante la integración de funciones visuales y de evaluación. El ELAM desarrollado alcanza un alto rendimiento en AutomotiveUI-Bench-4K y, en particular, supera al modelo base en un 5,6 % en la tarea ScreenSpot (precisión promedio del 80,8 %). Su rendimiento es similar o superior al de los modelos especializados para plataformas de escritorio, móviles y web, y a pesar de estar entrenado principalmente en el ámbito automotriz, demuestra una excelente generalización del dominio. Este estudio presenta una dirección para los avances basados en IA en la comprensión e interacción de la interfaz de usuario automotriz a través de la recopilación y el ajuste de datos, proporcionando un modelo perfeccionado que puede implementarse en GPU de nivel de consumidor de manera rentable.