Zero-Shot Subject-Centric Generation for Creative Application Using Entropy Fusion
Created by
Haebom
Category
Empty
저자
Kaifeng Zou, Xiaoyi Feng, Peng Wang, Tao Huang, Zizhou Huang, Zhang Haihang, Yuntao Zou, Dagang Li
개요
본 논문은 기존 텍스트-이미지 모델이 텍스타일 패턴 디자인이나 밈 생성과 같은 실제 응용 분야에서 원치 않는 요소 제거의 어려움을 겪는 문제를 해결하기 위해, 주제 중심 이미지 생성을 위한 새로운 프레임워크를 제시합니다. 기존의 사전 훈련된 텍스트-이미지 모델 FLUX의 각 샘플링 단계에서 얻은 크로스 어텐션 특징들을 엔트로피 기반 특징 가중치 융합 방법을 사용하여 결합하여 정확한 마스크 예측 및 주제 중심 생성을 가능하게 합니다. 또한, 사용자의 비형식적인 입력을 보다 상세한 프롬프트로 변환하는 대규모 언어 모델(LLM) 기반 에이전트 프레임워크를 개발하여 상세한 이미지 생성을 유도하고, 프롬프트의 주요 요소를 추출하여 엔트로피 기반 특징 융합을 안내함으로써 원치 않는 구성 요소 없이 주요 요소 생성에 집중합니다. 실험 결과와 사용자 연구는 제안된 방법이 기존 방법보다 우수한 고품질의 주제 중심 이미지를 생성함을 보여줍니다.