Cet article propose SGDFuse, un modèle de diffusion conditionnelle utilisant le modèle Segment Anything (SAM), pour pallier les lacunes des méthodes existantes en matière de fusion d'images infrarouge-visible (IVIF), notamment le manque de compréhension sémantique approfondie, la génération d'artefacts et la perte de détails. SGDFuse optimise le processus de fusion grâce à un modèle de diffusion conditionnelle, exploitant les masques sémantiques de haute qualité générés par le SAM comme informations préalables explicites. Ce processus en deux étapes consiste d'abord à effectuer une fusion préliminaire des caractéristiques multimodales, puis à débruiter le modèle de diffusion de grossier à fin, conditionné par les masques sémantiques du SAM et de l'image fusionnée préliminaire. Cela garantit la directionnalité sémantique et une haute fidélité du résultat final. Les résultats expérimentaux démontrent que SGDFuse atteint des performances de pointe en termes d'évaluations subjectives et objectives, ainsi qu'une applicabilité aux tâches en aval. Le code source est disponible sur GitHub.