Bài báo này đề xuất SGDFuse, một mô hình khuếch tán có điều kiện sử dụng Mô hình Bất kỳ Phân đoạn nào (SAM), để giải quyết những thiếu sót của các phương pháp hiện có trong hợp nhất ảnh hồng ngoại-khả kiến (IVIF), bao gồm thiếu hiểu biết ngữ nghĩa sâu sắc, tạo ra hiện tượng giả và mất chi tiết. SGDFuse tối ưu hóa quá trình hợp nhất thông qua mô hình khuếch tán có điều kiện, tận dụng các mặt nạ ngữ nghĩa chất lượng cao do SAM tạo ra làm thông tin trước rõ ràng. Quá trình hai bước bao gồm đầu tiên thực hiện hợp nhất sơ bộ các đặc điểm đa phương thức, sau đó khử nhiễu mô hình khuếch tán từ thô sang tinh, dựa trên các mặt nạ ngữ nghĩa từ SAM và ảnh hợp nhất sơ bộ. Điều này đảm bảo tính định hướng ngữ nghĩa và độ trung thực cao của kết quả cuối cùng. Kết quả thử nghiệm chứng minh rằng SGDFuse đạt được hiệu suất tiên tiến về mặt đánh giá chủ quan và khách quan, cũng như khả năng áp dụng cho các tác vụ hạ nguồn. Mã nguồn có sẵn trên GitHub.