Bài báo này trình bày một khuôn khổ ngôn ngữ thị giác cung cấp một giải pháp thông minh và thích ứng để thích ứng với những thay đổi thiết kế giao diện người dùng đa dạng trong các hệ thống thông tin giải trí trên ô tô. Nó tạo điều kiện thuận lợi cho việc hiểu và tương tác với giao diện người dùng ô tô, cho phép thích ứng liền mạch trên nhiều thiết kế giao diện người dùng đa dạng. Để đạt được điều này, chúng tôi phát hành bộ dữ liệu nguồn mở AutomotiveUI-Bench-4K, bao gồm 998 hình ảnh và 4.208 chú thích, đồng thời trình bày một đường ống dữ liệu để tạo dữ liệu đào tạo. Chúng tôi tinh chỉnh một mô hình dựa trên Molmo-7B bằng LoRa (Thích ứng bậc thấp) và phát triển một Mô hình hành động lớn đánh giá (ELAM) bằng cách tích hợp các hàm đánh giá và dựa trên hình ảnh. ELAM đã phát triển đạt hiệu suất cao trên AutomotiveUI-Bench-4K và đặc biệt, vượt trội hơn mô hình cơ sở 5,6% trong tác vụ ScreenSpot (độ chính xác trung bình là 80,8%). Nó hoạt động tương tự hoặc tốt hơn các mô hình chuyên biệt cho nền tảng máy tính để bàn, thiết bị di động và web và mặc dù chủ yếu được đào tạo trong lĩnh vực ô tô, nó vẫn thể hiện khả năng khái quát hóa lĩnh vực tuyệt vời. Nghiên cứu này trình bày hướng đi cho những tiến bộ dựa trên AI trong việc hiểu và tương tác giao diện người dùng ô tô thông qua việc thu thập và tinh chỉnh dữ liệu, cung cấp một mô hình tinh chỉnh có thể triển khai trên GPU dành cho người tiêu dùng một cách tiết kiệm chi phí.