本稿では、自動車インフォテインメントシステムのさまざまなUIデザインの変化に適応できるインテリジェントで適応的なソリューションを提供するビジョン - 言語フレームワークを紹介します。カーUIの理解とインタラクションを容易にし、さまざまなUIデザイン間のシームレスな適応を可能にします。このために、998個のイメージと4,208個の注釈からなるオープンソースデータセットAutomotiveUI-Bench-4Kを公開し、トレーニングデータ生成のためのデータパイプラインも提示します。 Molmo-7BベースのモデルをLoRa(Low-Rank Adaptation)を使用して微調整し、視覚的基盤と評価機能を統合してELAM(Evaluative Large Action Model)を開発しました。開発されたELAMは、AutomotiveUI-Bench-4Kで高い性能を達成し、特にScreenSpotの課題では、基準モデルより5.6%向上した性能を示しました(平均精度80.8%)。デスクトップ、モバイル、Web用のプロフェッショナルモデルと同等または優れたパフォーマンスを示し、主に自動車分野で訓練されているにもかかわらず、優れたドメイン一般化能力を実証します。本研究では、データ収集と微調整による自動車のUI理解と相互作用のAIベースの発展方向を提示し、コスト効率の良い方法で消費者クラスのGPUにも展開可能な微調整モデルを提供します。