Cet article présente un framework vision-langage offrant une solution intelligente et adaptative pour s'adapter aux diverses évolutions de conception d'interface utilisateur dans les systèmes d'infodivertissement automobiles. Il facilite la compréhension et l'interaction avec les interfaces utilisateur automobiles, permettant une adaptation transparente à différentes conceptions d'interface utilisateur. Pour ce faire, nous publions le jeu de données open source AutomotiveUI-Bench-4K, composé de 998 images et de 4 208 annotations, et présentons un pipeline de données pour la génération de données d'entraînement. Nous affinons un modèle basé sur Molmo-7B à l'aide de LoRa (adaptation de bas rang) et développons un modèle d'action évaluatif à grande échelle (ELAM) en intégrant des fonctions visuelles et d'évaluation. L'ELAM développé atteint des performances élevées sur AutomotiveUI-Bench-4K, et surpasse notamment le modèle de base de 5,6 % sur la tâche ScreenSpot (précision moyenne de 80,8 %). Ses performances sont similaires, voire supérieures, à celles des modèles spécialisés pour les plateformes de bureau, mobiles et web, et, bien qu'il soit principalement entraîné dans le domaine automobile, il démontre une excellente généralisation au domaine. Cette étude présente une orientation pour les avancées basées sur l'IA dans la compréhension et l'interaction de l'interface utilisateur automobile grâce à la collecte et au réglage fin des données, fournissant un modèle affiné qui peut être déployé sur des GPU grand public de manière rentable.