Este artículo propone SGDFuse, un modelo de difusión condicional que utiliza el Modelo Segment Anything (SAM), para abordar las deficiencias de los métodos existentes en la fusión de imágenes infrarrojas-visibles (IVIF), incluyendo la falta de una comprensión semántica profunda y la aparición de artefactos y pérdida de detalle durante el proceso de fusión. SGDFuse optimiza el proceso de fusión mediante un modelo de difusión condicional, utilizando las máscaras semánticas de alta calidad generadas por el SAM como información previa. El proceso, en dos pasos, implica primero la fusión preliminar de características multimodales y, posteriormente, la generación de un modelo de eliminación de ruido de grueso a fino basado en las máscaras semánticas del SAM y la imagen fusionada preliminar. Esto garantiza tanto la direccionalidad semántica como resultados de alta fidelidad. Los resultados experimentales demuestran que SGDFuse alcanza un rendimiento de vanguardia en términos de evaluaciones subjetivas y objetivas, así como su aplicabilidad a tareas posteriores. El código fuente está disponible en GitHub.