본 논문은 적외선 및 가시광선 영상 융합(IVIF)의 핵심 문제를 해결하기 위해 Segment Anything Model (SAM)을 활용한 조건부 확산 모델인 SGDFuse를 제안한다. 기존 방법론의 문제점인 핵심 대상 보존 실패, 인공물 발생 및 세부 정보 손실을 해결하기 위해, SAM이 생성한 고품질 의미 마스크를 명시적 사전 정보로 사용하여 조건부 확산 모델을 통해 융합 과정을 최적화한다. SGDFuse는 2단계 프로세스를 거친다. 먼저 다중 모달 특징의 예비 융합을 수행하고, SAM에서 얻은 의미 마스크와 예비 융합된 이미지를 조건으로 사용하여 확산 모델의 거친-세밀한 노이즈 제거 생성을 유도한다. 이 방식은 융합 과정에 명시적인 의미 방향성을 부여하고 최종 결과의 높은 충실도를 보장한다. 실험 결과는 SGDFuse가 주관적 및 객관적 평가 모두에서 최첨단 성능을 달성했으며, 다운스트림 태스크에도 적합함을 보여준다.