Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự kết hợp giữa tầm nhìn và ngôn ngữ cho khả năng lái xe tự động theo thời gian thực: Tập trung vào mục tiêu của camera, bản đồ HD và điểm dừng

Created by
  • Haebom

Tác giả

Santosh Patapati, Trisanth Srinivasan, Murari Ambati

Phác thảo

XYZ-Drive là một hệ thống lái xe tự động sử dụng một mô hình ngôn ngữ thị giác duy nhất làm đầu vào, lấy khung hình camera hướng về phía trước, bản đồ trên không 25m x 25m và điểm dừng tiếp theo làm đầu vào, và đầu ra là lái và tốc độ. Mã thông báo điểm dừng hỗ trợ cả mô tả hành động và văn bản bằng cách sử dụng lớp chú ý chéo nhẹ, tập trung vào mục tiêu làm nổi bật các mảng hình ảnh và bản đồ có liên quan và các mã thông báo đã hợp nhất được đưa vào mô hình LLaMA-3.2 11B được tinh chỉnh một phần. Trên điểm chuẩn MD-NEX Outdoor-Driving, hệ thống đạt tỷ lệ thành công 95% và tỷ lệ thành công 0,80 được tính theo độ dài đường dẫn (SPL), cải thiện 15% so với PhysNav-DG, với một nửa số vụ va chạm và hiệu quả được cải thiện đáng kể bằng cách chỉ sử dụng một nhánh duy nhất. Chúng tôi chứng minh sự cải thiện hiệu suất này thông qua 16 nghiên cứu cắt bỏ.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc kết hợp sớm tầm nhìn, điểm dừng và thông tin bản đồ ở cấp độ mã thông báo cho phép lái xe tự động chính xác, minh bạch và theo thời gian thực.
Chúng tôi chứng minh rằng một mô hình ngôn ngữ thị giác duy nhất có thể đồng thời cải thiện độ chính xác và hiệu quả của việc lái xe tự động.
Chúng tôi chứng minh rằng cơ chế chú ý theo mục tiêu đóng vai trò quan trọng trong việc tích hợp thông tin có giám sát một cách hiệu quả.
Nó nhấn mạnh tầm quan trọng của việc tinh chỉnh khi áp dụng VLM vào các nhiệm vụ cụ thể (lái xe tự động).
Limitations:
Khi độ phân giải bản đồ giảm (từ 10 cm xuống 40 cm), các mép làn đường trở nên mờ và tỷ lệ va chạm tăng lên, cho thấy nhu cầu về bản đồ có độ phân giải cao hơn.
Việc loại bỏ bất kỳ phương thức nào (Tầm nhìn, Điểm dừng, Bản đồ) sẽ làm giảm tỷ lệ thành công tới 11%, khiến việc dựa vào các vai trò bổ sung giữa các phương thức trở nên vô cùng quan trọng. Cần phải cải thiện tính mạnh mẽ giữa các phương thức.
👍