Bài báo này trình bày một phương pháp tích hợp dữ liệu đầu vào của LiDAR và camera vào biểu diễn Bird's-Eye-View (BEV) thống nhất để nâng cao hiệu suất nhận thức 3D của xe tự hành. Các phương pháp hiện có gặp phải tình trạng mất cân bằng không gian giữa các đặc điểm của LiDAR và camera, dẫn đến sai sót trong việc giám sát độ sâu chính xác của các nhánh camera và tổng hợp đặc điểm đa phương thức. Bài báo này chứng minh rằng nguyên nhân gốc rễ của những mất cân bằng này nằm ở độ chính xác hiệu chuẩn và lỗi chiếu do hiệu ứng màn trập lăn. Chúng tôi lưu ý rằng các lỗi này có thể dự đoán được tập trung tại các ranh giới vật thể-nền, nơi mà các máy dò 2D có thể xác định một cách đáng tin cậy. Do đó, mục tiêu chính của chúng tôi là tận dụng thông tin trước của vật thể 2D để căn chỉnh trước các đặc điểm đa phương thức trước khi hợp nhất. Để giải quyết tình trạng mất cân bằng cục bộ, chúng tôi đề xuất Hiệu chỉnh độ sâu có hướng dẫn trước (PGDC), sử dụng thông tin trước của vật thể 2D để giảm thiểu mất cân bằng và duy trì các cặp đặc điểm đa phương thức chính xác. Để giải quyết các lỗi căn chỉnh toàn cục, chúng tôi giới thiệu phương pháp Hợp nhất Hình học Nhận biết Sự gián đoạn (DAGF), giúp loại bỏ nhiễu dư từ PGDC và tăng cường rõ rệt các biến thể độ sâu riêng biệt tại ranh giới vật thể-nền để tạo ra các biểu diễn có thể nhận dạng về mặt cấu trúc. Để sử dụng hiệu quả các biểu diễn đã căn chỉnh, chúng tôi tích hợp Bộ điều biến Độ sâu Hướng dẫn Cấu trúc (SGDM), giúp hợp nhất hiệu quả các đặc điểm độ sâu đã căn chỉnh và hình ảnh bằng cơ chế chú ý có cổng. Phương pháp được đề xuất đạt hiệu suất tiên tiến (mAP 71,5%, NDS 73,6%) trên tập dữ liệu xác thực nuScenes.