Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Image Generation from Contextually-Contradictory Prompts

Created by
  • Haebom

저자

Saar Huberman, Or Patashnik, Omer Dahary, Ron Mokady, Daniel Cohen-Or

개요

텍스트-이미지 확산 모델은 고품질의 다양한 이미지를 자연어 프롬프트로부터 생성하는 데 뛰어나지만, 학습된 사전 지식과 상반되는 개념 조합이 프롬프트에 포함될 경우 의미적으로 정확한 결과를 생성하지 못하는 경우가 많습니다. 본 논문에서는 이러한 실패 모드를 문맥적 모순으로 정의하며, 이는 훈련 중 학습된 얽힌 연관성으로 인해 한 개념이 다른 개념을 암시적으로 부정하는 경우를 의미합니다. 이를 해결하기 위해, 본 논문에서는 프롬프트를 단계별로 분해하여, 일련의 프록시 프롬프트를 사용하여 잡음 제거 과정을 안내하는 단계 인식 프롬프트 분해 프레임워크를 제안합니다. 각 프록시 프롬프트는 잡음 제거의 특정 단계에서 나타날 것으로 예상되는 의미적 내용과 일치하도록 구성되며, 문맥적 일관성을 유지합니다. 이러한 프록시 프롬프트를 구성하기 위해, 대규모 언어 모델(LLM)을 활용하여 대상 프롬프트를 분석하고, 모순을 식별하며, 문맥적 충돌을 해결하면서 원래 의도를 유지하는 대체 표현을 생성합니다. 프롬프트 정보를 잡음 제거 진행 상황과 정렬함으로써, 본 논문의 방법은 문맥적 모순이 존재하는 경우에도 미세한 의미적 제어와 정확한 이미지 생성을 가능하게 합니다. 다양한 어려운 프롬프트에 대한 실험은 텍스트 프롬프트와의 정렬에서 상당한 개선을 보여줍니다.

시사점, 한계점

시사점:
텍스트-이미지 확산 모델의 의미적 정확성 향상에 기여
대규모 언어 모델을 활용한 프롬프트 엔지니어링의 새로운 방법 제시
단계별 프롬프트 분해를 통한 미세한 의미적 제어 가능
문맥적 모순이 있는 프롬프트에 대한 이미지 생성 성능 향상
한계점:
LLM의 성능에 의존적일 수 있음
프록시 프롬프트 생성 과정의 복잡성
특정 유형의 모순에만 효과적일 가능성
훈련 데이터의 편향 문제 해결 필요성
👍