Cet article propose CoDiff, un nouveau cadre d'analyse pour améliorer les performances de détection collaborative d'objets 3D dans les systèmes multi-agents. Les méthodes existantes de détection collaborative d'objets 3D génèrent des représentations de caractéristiques contenant du bruit spatial et temporel dû à des erreurs d'estimation de pose et à des retards, ce qui entraîne de faibles performances de détection. CoDiff s'appuie sur un modèle de diffusion pour résoudre ces problèmes. Il projette des cartes de caractéristiques de grande dimension dans l'espace latent d'un autoencodeur pré-entraîné et guide l'échantillonnage du modèle de diffusion en fonction des informations de chaque agent, supprimant ainsi le bruit et améliorant les caractéristiques fusionnées. Les résultats expérimentaux, basés sur des simulations et des jeux de données réels, démontrent que CoDiff surpasse les méthodes existantes en matière de détection collaborative d'objets et qu'il est robuste même en présence de niveaux élevés de bruit dans les informations de pose et de retard des agents.