この論文は、自動車インフォテインメントシステムのさまざまなUIデザインの変化に適応できるビジョン - 言語フレームワークを提示します。 998個のイメージと4,208個のアノテーションからなるオープンソースデータセットAutomotiveUI-Bench-4Kを公開し、合成データパイプラインを通じて学習データを生成する。 Molmo-7BベースのモデルをLoRaを用いて微調整し、パイプラインで生成された推論、視覚ベース、評価機能を統合してELAM(Evaluative Large Action Model)を開発した。 ELAMはAutomotiveUI-Bench-4Kで優れた性能を示し、特にScreenSpot課題で基準モデルと比較して+5.6%向上した80.8%の平均精度を達成し、デスクトップ、モバイル、Web向けの特化モデルと類似または上回る性能を示した。本研究は、データ収集と微調整による自動車のUI理解と相互作用の分野におけるAIの発展の方向性を提示し、費用対効果の高い方法で消費者クラスのGPUでも展開可能なモデルを提供します。