Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

Created by
  • Haebom

저자

Ziyun Zeng, Junhao Zhang, Wei Li, Mike Zheng Shou

Draw-In-Mind (DIM)

개요

최근 멀티모달 이해와 생성을 통합하는 단일 모델이 유망하게 떠올랐지만, 이미지 편집의 정밀성에서는 여전히 어려움을 겪고 있다. 이 문제를 해결하기 위해, 복잡한 지시 이해를 향상시키는 14M의 긴 컨텍스트 이미지-텍스트 쌍을 포함하는 DIM-T2I와, 이미지 편집을 위한 명시적 설계 청사진 역할을 하는 GPT-4o에 의해 생성된 233K의 chain-of-thought 상상력을 포함하는 DIM-Edit을 포함하는 Draw-In-Mind (DIM) 데이터셋을 도입했다. Qwen2.5-VL-3B를 훈련 가능한 SANA1.5-1.6B와 경량 2층 MLP를 통해 연결하고 제안된 DIM 데이터셋으로 훈련하여 DIM-4.6B-T2I/Edit를 개발했다. DIM-4.6B-Edit는 ImgEdit 및 GEdit-Bench 벤치마크에서 SOTA 또는 경쟁력 있는 성능을 달성하며, UniWorld-V1 및 Step1X-Edit과 같은 훨씬 더 큰 모델보다 우수하다.

시사점, 한계점

시사점:
이해 모듈에 디자인 책임을 명시적으로 할당하는 것이 이미지 편집에 상당한 이점을 제공한다.
DIM-4.6B-Edit는 작은 파라미터 규모에도 불구하고 SOTA 또는 경쟁력 있는 성능을 달성한다.
DIM 데이터셋과 모델을 공개하여 연구 발전에 기여한다.
한계점:
논문 자체에서 명시된 한계점은 포함되어 있지 않음.
👍