Este artículo propone SGDFuse, un modelo de difusión condicional que utiliza el Modelo Segment Anything (SAM), para abordar las deficiencias de los métodos existentes en la fusión de imágenes infrarrojas-visibles (IVIF), incluyendo la falta de una comprensión semántica profunda, la generación de artefactos y la pérdida de detalle. SGDFuse optimiza el proceso de fusión mediante un modelo de difusión condicional, aprovechando las máscaras semánticas de alta calidad generadas por el SAM como información previa explícita. El proceso, en dos pasos, implica primero realizar una fusión preliminar de características multimodales y luego reducir el ruido del modelo de difusión de grueso a fino, condicionado por las máscaras semánticas del SAM y la imagen fusionada preliminar. Esto garantiza la direccionalidad semántica y la alta fidelidad del resultado final. Los resultados experimentales demuestran que SGDFuse alcanza un rendimiento de vanguardia en términos de evaluaciones subjetivas y objetivas, así como su aplicabilidad a tareas posteriores. El código fuente está disponible en GitHub.