Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

OmniUnet: Mạng lưới đa phương thức phân đoạn địa hình phi cấu trúc trên xe tự hành sử dụng hình ảnh RGB, độ sâu và nhiệt

Created by
  • Haebom

Tác giả

Raul Castilla-Arquillo, Carlos Perez-del-Pulgar, Levin Gerdes, Alfonso Garcia-Cerezo, Miguel A. Olivares-Mendez

Phác thảo

Bài báo này đề xuất OmniUnet, một mô hình phân đoạn ngữ nghĩa dựa trên hình ảnh đa phương thức (RGB, độ sâu, nhiệt) phục vụ cho việc định vị tự động an toàn của các xe tự hành trên Sao Hỏa. Được đào tạo bằng bộ dữ liệu đa phương thức thu thập từ sa mạc Bardenas ở Tây Ban Nha, OmniUnet sử dụng kiến trúc mạng dựa trên Transformer và được thiết kế để cho phép suy luận thời gian thực ngay cả trên máy Jetson Orin Nano có tài nguyên hạn chế. Kết quả thử nghiệm cho thấy hiệu suất tuyệt vời trong việc phân đoạn địa hình phức tạp, phi cấu trúc, đạt độ chính xác pixel 80,37%. Bộ dữ liệu và mã nguồn được thu thập đều mở và có sẵn cho các nghiên cứu trong tương lai.

Takeaways, Limitations

Takeaways:
Một mô hình phân đoạn địa hình sao Hỏa hiệu quả sử dụng hình ảnh đa phương thức (RGB-DT) được trình bày.
Triển khai một mô hình nhẹ có khả năng xử lý thời gian thực ngay cả trong môi trường hạn chế về tài nguyên.
ĐóNg góp vào sự phát triển nghiên cứu trong tương lai thông qua các tập dữ liệu mở và mã nguồn.
Góp phần cải thiện sự an toàn của việc lái xe tự động của robot thám hiểm sao Hỏa.
Limitations:
Kích thước và tính đa dạng của tập dữ liệu hạn chế (chỉ áp dụng cho sa mạc Bardenas).
Sự khác biệt so với môi trường sao Hỏa thực tế (sử dụng môi trường mô phỏng).
Cần phải xác minh hiệu suất tổng quát cho các loại địa hình và chướng ngại vật khác.
Cần phải đánh giá thêm về độ bền và tính ổn định để có thể hoạt động lâu dài.
👍