Bài báo này đề xuất OmniUnet, một mô hình phân đoạn ngữ nghĩa dựa trên hình ảnh đa phương thức (RGB, độ sâu, nhiệt) phục vụ cho việc định vị tự động an toàn của các xe tự hành trên Sao Hỏa. Được đào tạo bằng bộ dữ liệu đa phương thức thu thập từ sa mạc Bardenas ở Tây Ban Nha, OmniUnet sử dụng kiến trúc mạng dựa trên Transformer và được thiết kế để cho phép suy luận thời gian thực ngay cả trên máy Jetson Orin Nano có tài nguyên hạn chế. Kết quả thử nghiệm cho thấy hiệu suất tuyệt vời trong việc phân đoạn địa hình phức tạp, phi cấu trúc, đạt độ chính xác pixel 80,37%. Bộ dữ liệu và mã nguồn được thu thập đều mở và có sẵn cho các nghiên cứu trong tương lai.