Este artículo propone CoDiff, un nuevo marco para mejorar el rendimiento de la detección colaborativa de objetos 3D en sistemas multiagente. Los métodos colaborativos de detección de objetos 3D existentes generan representaciones de características con ruido espacial y temporal debido a errores de estimación de pose y retrasos, lo que resulta en un rendimiento de detección deficiente. CoDiff utiliza un modelo de difusión para abordar estos problemas. Proyecta mapas de características de alta dimensión en el espacio latente de un autocodificador preentrenado y guía el muestreo del modelo de difusión basándose en la información de cada agente, eliminando así el ruido y mejorando las características fusionadas. Los resultados experimentales, utilizando simulaciones y conjuntos de datos reales, demuestran que CoDiff supera a los métodos existentes en la detección colaborativa de objetos y es robusto incluso en presencia de altos niveles de ruido en la información de pose y retraso del agente.