Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tận dụng các mô hình ngôn ngữ thị giác để phân tích và xây dựng nền tảng trực quan cho giao diện người dùng ô tô

작성자
  • Haebom

Tác giả

Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann

Phác thảo

Bài báo này trình bày một khuôn khổ ngôn ngữ thị giác cung cấp một giải pháp thông minh và thích ứng để thích ứng với những thay đổi thiết kế giao diện người dùng đa dạng trong các hệ thống thông tin giải trí trên ô tô. Nó tạo điều kiện thuận lợi cho việc hiểu và tương tác với giao diện người dùng ô tô, cho phép thích ứng liền mạch trên nhiều thiết kế giao diện người dùng đa dạng. Để đạt được điều này, chúng tôi phát hành bộ dữ liệu nguồn mở AutomotiveUI-Bench-4K, bao gồm 998 hình ảnh và 4.208 chú thích, đồng thời trình bày một đường ống dữ liệu để tạo dữ liệu đào tạo. Chúng tôi tinh chỉnh một mô hình dựa trên Molmo-7B bằng LoRa (Thích ứng bậc thấp) và phát triển một Mô hình hành động lớn đánh giá (ELAM) bằng cách tích hợp các hàm đánh giá và dựa trên hình ảnh. ELAM đã phát triển đạt hiệu suất cao trên AutomotiveUI-Bench-4K và đặc biệt, vượt trội hơn mô hình cơ sở 5,6% trong tác vụ ScreenSpot (độ chính xác trung bình là 80,8%). Nó hoạt động tương tự hoặc tốt hơn các mô hình chuyên biệt cho nền tảng máy tính để bàn, thiết bị di động và web và mặc dù chủ yếu được đào tạo trong lĩnh vực ô tô, nó vẫn thể hiện khả năng khái quát hóa lĩnh vực tuyệt vời. Nghiên cứu này trình bày hướng đi cho những tiến bộ dựa trên AI trong việc hiểu và tương tác giao diện người dùng ô tô thông qua việc thu thập và tinh chỉnh dữ liệu, cung cấp một mô hình tinh chỉnh có thể triển khai trên GPU dành cho người tiêu dùng một cách tiết kiệm chi phí.

Takeaways, Limitations

Takeaways:
Trình bày một khuôn khổ ngôn ngữ thị giác có thể thích ứng với nhiều thay đổi thiết kế khác nhau trong giao diện người dùng ô tô.
Cho phép nghiên cứu bằng cách phát hành bộ dữ liệu nguồn mở AutomotiveUI-Bench-4K
Trình bày phương pháp tinh chỉnh dựa trên LoRa tiết kiệm chi phí và xác minh tính khả thi của việc triển khai GPU cấp tiêu dùng.
Đã Chứng minh hiệu suất được cải thiện và khả năng khái quát hóa miền vượt trội so với các mô hình hiện có trong tác vụ ScreenSpot.
Trình bày những tiến bộ dựa trên AI trong việc hiểu và tương tác với giao diện người dùng ô tô.
Limitations:
Kích thước tập dữ liệu cần được mở rộng hơn nữa (998 hình ảnh có thể không đủ để phản ánh đầy đủ các tình huống khác nhau).
Có khả năng thiên vị đối với thiết kế giao diện người dùng trên ô tô cụ thể.
Thiếu xác minh hiệu suất trong môi trường lái xe thực tế
Có thể thiếu sự hỗ trợ cho nhiều ngôn ngữ khác nhau và không xem xét đến sự khác biệt về văn hóa
Cần nghiên cứu thêm về sự suy giảm hiệu suất và tính ổn định có thể xảy ra khi sử dụng lâu dài.
👍