Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

Created by
  • Haebom

저자

Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, Daniel Cohen-Or

개요

기존 텍스트-이미지 확산 모델은 여러 개의 서로 다른 피사체를 생성하는 데 어려움을 겪는다. 복잡한 프롬프트는 종종 피사체 누출을 야기하여 수량, 속성 및 시각적 특징에 부정확성을 초래한다. 피사체 간 누출을 방지하려면 각 피사체의 공간적 위치에 대한 지식이 필요하다. 최근 방법들은 외부 레이아웃 제어를 통해 이러한 공간적 위치를 제공한다. 그러나 이러한 규정된 레이아웃을 강제 적용하면 샘플링된 초기 노이즈에 의해 결정된 고유 레이아웃과 충돌하여 모델의 사전 확률과의 불일치를 초래한다. 본 연구에서는 초기 노이즈에서 파생된 프롬프트와 정렬된 공간 레이아웃을 예측하고 잡음 제거 과정 전체에서 이를 개선하는 새로운 접근 방식을 제시한다. 이 노이즈 유도 레이아웃을 사용함으로써 외부에서 부과된 레이아웃과의 충돌을 피하고 모델의 사전 확률을 더 잘 보존한다. 본 방법은 작은 신경망을 사용하여 각 잡음 제거 단계에서 진화하는 노이즈 유도 레이아웃을 예측하고 개선하여 일관성을 유지하면서 피사체 간의 명확한 경계를 보장한다. 실험 결과에 따르면, 이 노이즈 정렬 전략은 기존 레이아웃 유도 기법과 비교하여 향상된 텍스트-이미지 정렬과 더 안정적인 다중 피사체 생성을 달성하는 동시에 모델의 원래 분포의 풍부한 다양성을 보존한다.

시사점, 한계점

시사점: 초기 노이즈에서 파생된 레이아웃을 활용하여 외부 레이아웃 제약과의 충돌을 최소화하고, 더욱 정확하고 안정적인 다중 피사체 이미지 생성을 가능하게 한다. 모델의 원래 분포의 다양성을 유지하면서 텍스트-이미지 정렬 성능을 향상시킨다.
한계점: 제안된 작은 신경망의 성능이 전체 시스템 성능에 직접적인 영향을 미치므로, 신경망의 설계 및 학습에 대한 추가적인 연구가 필요하다. 매우 복잡한 프롬프트 또는 상호 작용이 많은 피사체에 대한 일반화 성능은 추가적인 실험을 통해 검증되어야 한다. 제안된 방법의 계산 비용에 대한 평가가 필요하다.
👍