Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation

Created by
  • Haebom
Category
Empty

저자

Pu Cao, Feng Zhou, Lu Yang, Tianrui Huang, Qing Song

개요

본 논문은 특정 도메인 내에서 다양한 작업(무조건 생성, 텍스트-이미지 생성, 이미지 편집, 3D 생성 등)을 수행하는 도메인 내 생성에 대해 다룹니다. 기존 연구는 각 작업 및 도메인에 대해 특수한 생성기를 훈련시켜야 했고, 완전히 레이블이 지정된 데이터에 의존하는 경우가 많았습니다. 본 논문은 사전 훈련된 생성 모델을 레이블 없는 데이터를 사용하여 도메인 내 생성에 활용하는 방법을 제시합니다. 사전 훈련된 생성 모델을 도메인 데이터로 미세 조정하는 것은 직관적이지만, 제한된 데이터 다양성으로 인해 모델의 생성 능력이 저하될 수 있습니다. 이 문제를 해결하기 위해, 본 논문은 사전 훈련된 모델의 잡음 제거 안내를 보존하는 데 영감을 받아 이미지 데이터만으로 높은 생성 품질과 제어 성능을 달성하기 위한 안내 분리 사전 보존 메커니즘을 제안합니다. 도메인 관련 안내를 분리하여 개방형 세계 제어 안내 및 무조건 안내를 보존하고, 텍스트가 없는 추가 UNet 복사본을 훈련하여 도메인 안내를 예측하는 효율적인 도메인 지식 학습 기술을 제안합니다. 또한, 여러 생성 모델과 조건으로부터 다양한 안내를 활용하는 다중 안내 도메인 내 생성 파이프라인을 이론적으로 설명합니다. 광범위한 실험을 통해 제안된 방법의 우수성과 다양한 확산 기반 제어 방법 및 응용 프로그램과의 호환성을 보여줍니다.

시사점, 한계점

시사점:
레이블 없는 데이터를 사용하여 도메인 내 생성을 위한 사전 훈련된 생성 모델 활용 가능성 제시
안내 분리 사전 보존 메커니즘을 통해 높은 생성 품질 및 제어 성능 달성
효율적인 도메인 지식 학습 기술을 통해 텍스트 없이 도메인 안내 예측 가능
다양한 확산 기반 제어 방법 및 응용 프로그램과의 호환성 증명
다중 안내 도메인 내 생성 파이프라인 제시
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 도메인 및 작업에 대한 추가적인 실험 필요
특정 도메인에 대한 최적의 하이퍼파라미터 설정에 대한 추가적인 연구 필요
실제 응용 분야에서의 성능 평가 필요
👍