본 논문은 적외선 및 가시광선 영상 융합(IVIF)에서 기존 방법들의 한계점인 심층적인 의미 이해 부족과 융합 과정에서의 인공물 및 세부 정보 손실 문제를 해결하기 위해, Segment Anything Model (SAM)을 이용한 조건부 확산 모델인 SGDFuse를 제안합니다. SGDFuse는 SAM이 생성한 고품질의 의미론적 마스크를 사전 정보로 활용하여 조건부 확산 모델을 통해 융합 과정을 최적화합니다. 두 단계 과정으로, 먼저 다중 모드 특징의 예비 융합을 수행하고, 이후 SAM의 의미론적 마스크와 예비 융합 이미지를 조건으로 하여 확산 모델의 거친-미세 잡음 제거 생성을 수행합니다. 이를 통해 의미론적 방향성과 고충실도 결과를 동시에 보장합니다. 실험 결과, SGDFuse는 주관적 및 객관적 평가와 후속 작업 적용성 측면에서 최첨단 성능을 달성함을 보여줍니다. 소스 코드는 GitHub에서 공개됩니다.