Compositional Image Synthesis with Inference-Time Scaling
Created by
Haebom
Category
Empty
저자
Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn
개요
본 논문은 현대 텍스트-이미지 모델의 구도 정확성 문제를 해결하기 위해, 객체 중심 접근 방식과 자기 개선을 결합한 훈련 없는 프레임워크를 제시한다. 대규모 언어 모델(LLM)을 사용하여 입력 프롬프트로부터 명시적 레이아웃을 생성하고, 객체 중심 시각-언어 모델(VLM)을 통해 여러 후보 이미지를 재평가하여 프롬프트 정렬을 개선한다.