최근 멀티모달 이해와 생성을 통합하는 단일 모델이 유망하게 떠올랐지만, 이미지 편집의 정밀성에서는 여전히 어려움을 겪고 있다. 이 문제를 해결하기 위해, 복잡한 지시 이해를 향상시키는 14M의 긴 컨텍스트 이미지-텍스트 쌍을 포함하는 DIM-T2I와, 이미지 편집을 위한 명시적 설계 청사진 역할을 하는 GPT-4o에 의해 생성된 233K의 chain-of-thought 상상력을 포함하는 DIM-Edit을 포함하는 Draw-In-Mind (DIM) 데이터셋을 도입했다. Qwen2.5-VL-3B를 훈련 가능한 SANA1.5-1.6B와 경량 2층 MLP를 통해 연결하고 제안된 DIM 데이터셋으로 훈련하여 DIM-4.6B-T2I/Edit를 개발했다. DIM-4.6B-Edit는 ImgEdit 및 GEdit-Bench 벤치마크에서 SOTA 또는 경쟁력 있는 성능을 달성하며, UniWorld-V1 및 Step1X-Edit과 같은 훨씬 더 큰 모델보다 우수하다.