Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models

Created by
  • Haebom

저자

Ketan Suhaas Saichandran, Xavier Thomas, Prakhar Kaushik, Deepti Ghadiyaram

개요

본 논문은 복잡한 장면, 다양한 객체, 그리고 객체 간의 공간적 관계를 상세히 기술하는 긴 프롬프트에 어려움을 겪는 텍스트-이미지 생성 모델의 문제를 해결하기 위해, SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings)라는 새로운 방법을 제안합니다. SCoPE는 훈련 없이도 프롬프트를 거칠게부터 세밀하게 단계적으로 개선하여 텍스트-이미지 정합도를 향상시키는 플러그 앤 플레이 방식입니다. 상세한 입력 프롬프트를 광범위한 장면 레이아웃 설명부터 매우 복잡한 세부 사항까지 다루는 여러 하위 프롬프트로 분해하고, 추론 중에 이러한 하위 프롬프트 간을 보간하여 생성 이미지에 점진적으로 더 세밀한 세부 정보를 도입합니다.

시사점, 한계점

시사점:
훈련이 필요 없는 플러그 앤 플레이 방식으로, 기존 텍스트-이미지 생성 모델의 성능을 향상시킬 수 있습니다.
GenAI-Bench 데이터셋의 83% 프롬프트에서 Stable Diffusion 기준 대비 VQA 점수를 평균 8 이상 향상시켰습니다.
복잡하고 세밀한 프롬프트에 대한 텍스트-이미지 정합도를 크게 개선합니다.
긴 프롬프트를 효과적으로 처리하는 새로운 접근 방식을 제시합니다.
한계점:
제시된 방법의 성능 향상이 GenAI-Bench 데이터셋에 국한될 가능성이 있습니다. 다른 데이터셋에서도 동일한 성능 향상을 보이는지 추가적인 실험이 필요합니다.
하위 프롬프트 분해 및 보간 전략의 최적화에 대한 추가적인 연구가 필요할 수 있습니다.
특정 유형의 프롬프트에 대해서는 효과가 제한적일 수 있습니다.
👍