यह शोधपत्र एक विज़न-लैंग्वेज ढाँचा प्रस्तुत करता है जो ऑटोमोटिव इंफोटेनमेंट सिस्टम में विविध UI डिज़ाइन परिवर्तनों के अनुकूल होने के लिए एक बुद्धिमान और अनुकूली समाधान प्रदान करता है। यह ऑटोमोटिव UI को समझने और उनके साथ सहभागिता को सुगम बनाता है, जिससे विविध UI डिज़ाइनों में निर्बाध अनुकूलन संभव होता है। इस लक्ष्य को प्राप्त करने के लिए, हमने AutomotiveUI-Bench-4K ओपन-सोर्स डेटासेट जारी किया है, जिसमें 998 चित्र और 4,208 एनोटेशन शामिल हैं, और प्रशिक्षण डेटा निर्माण के लिए एक डेटा पाइपलाइन प्रस्तुत की है। हमने LoRa (निम्न-रैंक अनुकूलन) का उपयोग करके एक Molmo-7B-आधारित मॉडल को परिष्कृत किया है और दृश्य-आधारित और मूल्यांकन कार्यों को एकीकृत करके एक मूल्यांकनात्मक वृहद क्रिया मॉडल (ELAM) विकसित किया है। विकसित ELAM AutomotiveUI-Bench-4K पर उच्च प्रदर्शन प्राप्त करता है, और विशेष रूप से, ScreenSpot कार्य पर बेसलाइन मॉडल से 5.6% बेहतर प्रदर्शन करता है (औसत सटीकता 80.8%)। यह डेस्कटॉप, मोबाइल और वेब प्लेटफ़ॉर्म के लिए विशिष्ट मॉडलों के समान या उनसे बेहतर प्रदर्शन करता है, और मुख्य रूप से ऑटोमोटिव क्षेत्र में प्रशिक्षित होने के बावजूद, यह उत्कृष्ट डोमेन सामान्यीकरण प्रदर्शित करता है। यह अध्ययन डेटा संग्रह और फाइन-ट्यूनिंग के माध्यम से ऑटोमोटिव यूआई समझ और इंटरैक्शन में एआई-आधारित प्रगति के लिए एक दिशा प्रस्तुत करता है, जो एक फाइन-ट्यून्ड मॉडल प्रदान करता है जिसे लागत प्रभावी तरीके से उपभोक्ता-ग्रेड जीपीयू पर तैनात किया जा सकता है।