Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MetaOcc: Sự kết hợp không gian-thời gian của radar và camera 4D toàn cảnh để dự đoán tình trạng chiếm đóng 3D với các chiến lược đào tạo kép

Created by
  • Haebom

Tác giả

Long Dương, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixiong Ma, Tao Huang, Xichan Zhu

Phác thảo

Bài báo này trình bày MetaOcc, một khuôn khổ đa phương thức cho dự đoán tình trạng chiếm dụng 3D mạnh mẽ ngay cả trong điều kiện thời tiết bất lợi. MetaOcc thực hiện dự đoán tình trạng chiếm dụng 3D đa hướng bằng cách sử dụng radar 4D đa góc nhìn và hình ảnh. Để khắc phục những hạn chế của việc áp dụng trực tiếp bộ mã hóa dựa trên LiDAR vào dữ liệu radar thưa thớt, chúng tôi đề xuất một mô-đun Tự chú ý Độ cao Radar giúp tăng cường suy luận không gian theo chiều dọc và trích xuất đặc điểm. Hơn nữa, chúng tôi giảm thiểu sự không khớp không gian-thời gian và làm phong phú thêm biểu diễn đặc điểm hợp nhất thông qua chiến lược hợp nhất đa phương thức đa quy mô phân cấp thực hiện hợp nhất cục bộ-toàn cục thích ứng trên các phương thức và thời gian. Để giảm sự phụ thuộc vào các chú thích đám mây điểm tốn kém, chúng tôi đề xuất một đường ống tạo nhãn giả dựa trên bộ phân đoạn tập mở, triển khai chiến lược học bán giám sát đạt được 90% hiệu suất giám sát tổng thể chỉ bằng 50% nhãn sự thật cơ bản. Kết quả thử nghiệm cho thấy MetaOcc đạt được hiệu suất tiên tiến nhất bằng cách cải thiện các phương pháp hiện có thêm +0,47 SC IoU và +4,02 mIoU trên tập dữ liệu OmniHD-Scenes, và thêm +1,16 SC IoU và +1,24 mIoU trên tập dữ liệu SurroundOcc-nuScenes.

Takeaways, Limitations

Takeaways:
Một khuôn khổ hợp nhất đa phương thức hiệu quả để dự đoán tình trạng chiếm dụng 3D mạnh mẽ ngay cả trong điều kiện thời tiết bất lợi được trình bày.
Đề Xuất mô-đun tự chú ý độ cao radar để trích xuất tính năng hiệu quả từ dữ liệu radar thưa thớt.
Đề Xuất Chiến lược hợp nhất đa phương thức đa quy mô phân cấp để giảm thiểu sự không khớp về không gian và thời gian và làm giàu biểu diễn tính năng.
Giảm chi phí chú thích và cải thiện hiệu suất thông qua các chiến lược học bán giám sát.
ĐạT được hiệu suất tiên tiến nhất trên các tập dữ liệu OmniHD-Scenes và SurroundOcc-nuScenes.
Trình bày khả năng ứng dụng thực tế vào các hệ thống lái xe tự động thực tế.
Limitations:
Hiệu suất của đường ống tạo nhãn giả được đề xuất vẫn thấp hơn một chút (khoảng 90%) so với hiệu suất của phương pháp học có giám sát hoàn toàn.
Cần phải xác nhận thêm hiệu suất tổng quát trong nhiều điều kiện thời tiết bất lợi khác nhau.
Cần phải đánh giá hiệu suất theo thời gian thực trong môi trường lái xe tự động thực tế.
👍