Este artículo amplía LiDAR-BIND, un marco modular de fusión multimodal para integrar sensores heterogéneos (radar y sonar) en un espacio latente basado en LiDAR, con un mecanismo que refuerza explícitamente la consistencia temporal. Presentamos tres contribuciones: primero, la similitud de incrustación temporal, que alinea representaciones latentes continuas; segundo, una pérdida de traslación alineada con el movimiento, que iguala los desplazamientos entre el LiDAR predicho y el real; y tercero, la fusión temporal basada en ventanas mediante un módulo temporal especializado. También actualizamos la arquitectura del modelo para preservar mejor la estructura espacial. La evaluación de la conversión de radar/sonar a LiDAR demuestra que la consistencia temporal y espacial mejorada reduce los errores absolutos de trayectoria y mejora la precisión del mapa de ocupación en SLAM basado en cartógrafos. Para evaluar el rendimiento de SLAM, proponemos diversas métricas basadas en la Distancia de Movimiento de Video Frecuente (FVMD) y la métrica de distancia pico de correlación. El LiDAR-BIND temporal propuesto (LiDAR-BIND-T) mejora significativamente la estabilidad temporal al tiempo que mantiene la fusión de la modalidad plug-and-play, mejorando así la robustez y el rendimiento del SLAM posterior.