Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art

Created by
  • Haebom
Category
Empty

저자

Zhe Jin, Tat-Seng Chua

개요

본 논문은 텍스트-이미지 확산 모델(DM)이 고품질 이미지 생성 능력에도 불구하고, 훈련 데이터의 영향으로 원치 않는 결과물을 생성하는 문제를 해결하기 위해 사용자 맞춤형 미적 기준을 제시하는 새로운 방법을 제안합니다. 기존의 미적 기준이 보편적이라는 전제에 기반한 것과 달리, 본 논문은 개인화된 미적 기준을 강조하며, 예술 작품의 구성 원리를 바탕으로 미적 기준을 정의합니다. WikiArt를 기반으로 미술 구성 원리(PoA) 분석이 주석된 대규모 조성 예술 데이터셋 CompArt를 구축하고, 거대 언어 모델(LLM)을 활용하여 경량의 전이 가능한 어댑터를 훈련시켜 사용자가 PoA 조건을 통해 10가지 구성 제어를 할 수 있도록 합니다. 마지막으로, 제안된 방법의 효과를 평가하기 위한 평가 프레임워크를 설계합니다.

시사점, 한계점

시사점:
사용자 맞춤형 미적 기준을 적용한 텍스트-이미지 생성 모델을 위한 새로운 접근 방식 제시
미술 구성 원리(PoA)를 활용한 미적 기준 정의 및 CompArt 데이터셋 구축
거대 언어 모델(LLM) 기반의 경량 어댑터를 통한 효과적인 10가지 구성 제어 가능성 증명
제안된 방법의 효과를 평가하기 위한 평가 프레임워크 제시
한계점:
CompArt 데이터셋의 규모 및 PoA 분석의 정확성에 대한 추가적인 검증 필요
제안된 방법의 일반화 성능 및 다양한 스타일의 이미지 생성에 대한 추가적인 연구 필요
LLM에 의존하는 어댑터의 편향성 및 해석 가능성에 대한 추가적인 분석 필요
👍