본 논문은 적외선 및 가시광선 영상 융합(IVIF)에서 기존 방법들의 한계점인 심층적인 의미 이해 부족과 인공물 발생 및 세부 정보 손실 문제를 해결하기 위해, Segment Anything Model (SAM)을 이용한 조건부 확산 모델인 SGDFuse를 제안합니다. SGDFuse는 SAM이 생성한 고품질의 의미론적 마스크를 명시적인 사전 정보로 활용하여 조건부 확산 모델을 통해 융합 과정을 최적화합니다. 두 단계 과정으로, 먼저 다중 모드 특징의 예비 융합을 수행한 후, SAM의 의미론적 마스크와 예비 융합 이미지를 조건으로 하여 확산 모델의 조잡함에서 세밀함으로 이어지는 탈잡음 생성을 수행합니다. 이를 통해 의미론적 방향성을 확보하고 최종 결과의 고충실도를 보장합니다. 실험 결과, SGDFuse는 주관적 및 객관적 평가와 다운스트림 작업 적용성 측면에서 최첨단 성능을 달성함을 보여줍니다. 소스 코드는 GitHub에서 공개됩니다.