Cet article propose SGDFuse, un modèle de diffusion conditionnelle utilisant le modèle Segment Anything (SAM), pour pallier les lacunes des méthodes existantes en matière de fusion d'images infrarouge-visible (IVIF), notamment le manque de compréhension sémantique approfondie, les artefacts et la perte de détails lors de la fusion. SGDFuse optimise le processus de fusion grâce à un modèle de diffusion conditionnelle, utilisant les masques sémantiques de haute qualité générés par le SAM comme informations préalables. Ce processus en deux étapes consiste d'abord à effectuer une fusion préliminaire des caractéristiques multimodales, puis à générer un modèle de débruitage, du grossier au fin, basé sur les masques sémantiques du SAM et de l'image fusionnée préliminaire. Cela garantit à la fois une directionnalité sémantique et des résultats haute fidélité. Les résultats expérimentaux démontrent que SGDFuse atteint des performances de pointe en termes d'évaluations subjectives et objectives, ainsi qu'une applicabilité aux tâches ultérieures. Le code source est disponible sur GitHub.