본 논문은 시각 및 텍스트 개념을 새로운 시각적 개념으로 융합하는 인간의 창의성을 강화하기 위해 T2I 확산 어댑터인 "IT-Blender"를 제안합니다. 기존의 cross-modal conceptual blending 연구는 세부 정보 손실 없이 실제 이미지를 인코딩하거나 이미지와 텍스트 입력을 분리하는 데 한계가 있었습니다. IT-Blender는 사전 훈련된 확산 모델(SD 및 FLUX)을 활용하여 깨끗한 참조 이미지의 잠재 표현과 노이즈가 있는 생성 이미지의 잠재 표현을 혼합하여 이러한 문제를 해결합니다. 새로운 blended attention 기법과 결합하여 세부 정보 손실 없이 실제 참조 이미지를 인코딩하고 시각적 개념과 텍스트로 지정된 객체를 분리된 방식으로 혼합합니다. 실험 결과, IT-Blender는 기존 방법보다 시각 및 텍스트 개념 혼합에서 훨씬 우수한 성능을 보이며, 이미지 생성 모델의 새로운 활용 방안을 제시합니다.