Sign In

Compositional Image Synthesis with Inference-Time Scaling

Created by
  • Haebom
Category
Empty

저자

Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn

개요

본 논문은 현대 텍스트-이미지 모델의 구도 정확성 문제를 해결하기 위해, 객체 중심 접근 방식과 자기 개선을 결합한 훈련 없는 프레임워크를 제시한다. 대규모 언어 모델(LLM)을 사용하여 입력 프롬프트로부터 명시적 레이아웃을 생성하고, 객체 중심 시각-언어 모델(VLM)을 통해 여러 후보 이미지를 재평가하여 프롬프트 정렬을 개선한다.

시사점, 한계점

시사점:
훈련 없이 텍스트-이미지 모델의 구도 정확성을 향상시킴.
LLM을 활용하여 명시적인 레이아웃을 생성하고 이미지 생성 과정에 통합.
객체 중심 VLM을 사용하여 이미지 후보를 반복적으로 평가하고 개선.
최신 텍스트-이미지 모델보다 향상된 장면 정렬을 달성.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
코드(https://github.com/gcl-inha/ReFocus)를 통해 추가적인 정보 확인 필요.
👍