Este artículo presenta un método para integrar las entradas de LiDAR y cámara en una representación unificada de Vista de Pájaro (BEV) para mejorar el rendimiento de la percepción 3D de los vehículos autónomos. Los métodos existentes presentan desalineación espacial entre las características de LiDAR y la cámara, lo que genera errores en la supervisión precisa de la profundidad de las ramas de la cámara y en la agregación de características intermodales. Este artículo demuestra que las causas fundamentales de estas desalineaciones residen en imprecisiones de calibración y errores de proyección causados por el efecto de obturador rodante. Observamos que estos errores se concentran previsiblemente en los límites entre el objeto y el fondo, que los detectores 2D identifican de forma fiable. Por lo tanto, nuestro objetivo principal es aprovechar la información previa de los objetos 2D para prealinear las características intermodales antes de la fusión. Para abordar la desalineación local, proponemos la Calibración de Profundidad Guiada por Previo (PGDC), que utiliza información previa 2D para mitigar la desalineación y mantener pares de características intermodales precisos. Para abordar los errores de alineación global, introducimos la Fusión Geométrica con Conciencia de Discontinuidad (DAGF), que suprime el ruido residual de PGDC y mejora explícitamente las variaciones de profundidad distintivas en los límites entre el objeto y el fondo para generar representaciones estructuralmente reconocibles. Para utilizar eficazmente las representaciones alineadas, integramos el Modulador de Profundidad de Guía Estructural (SGDM), que fusiona eficientemente la profundidad alineada y las características de la imagen mediante un mecanismo de atención controlada. El método propuesto alcanza un rendimiento de vanguardia (mAP 71,5 %, NDS 73,6 %) en el conjunto de datos de validación de nuScenes.