[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

Created by
  • Haebom

저자

Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen

개요

본 논문은 단일 이미지에서 콘텐츠와 스타일을 분리하는 콘텐츠-스타일 분해(CSD) 문제를 다룹니다. 기존의 확산 모델 기반 개인화 방법과 달리, 본 논문에서는 시각적 자기회귀 모델링(VAR)을 이용하여 CSD를 수행하는 새로운 방법인 CSD-VAR을 제안합니다. CSD-VAR은 크기별 생성 과정을 활용하여 콘텐츠와 스타일의 분리를 향상시키기 위해 세 가지 핵심 혁신을 도입합니다. 첫째, 콘텐츠와 스타일 표현을 각각의 크기에 맞춰 정렬하는 크기 인식 교차 최적화 전략을 사용합니다. 둘째, SVD 기반 수정 방법을 통해 스타일 표현으로의 콘텐츠 누출을 완화합니다. 셋째, 증강된 키-값(K-V) 메모리를 사용하여 콘텐츠 정체성 보존을 향상시킵니다. 또한, CSD 작업을 위한 새로운 벤치마크 데이터셋인 CSD-100을 소개합니다. 실험 결과, CSD-VAR은 기존 방법보다 우수한 콘텐츠 보존 및 스타일 충실도를 달성함을 보여줍니다.

시사점, 한계점

시사점:
VAR을 이용한 CSD 수행의 가능성을 제시하고, 기존 확산 모델 기반 방법보다 우수한 성능을 보임.
크기 인식 교차 최적화, SVD 기반 수정, 증강된 K-V 메모리 등의 새로운 기술 제안.
CSD 작업을 위한 새로운 벤치마크 데이터셋 CSD-100 제공.
한계점:
CSD-100 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
제안된 방법의 일반화 성능에 대한 추가적인 실험 필요.
다른 유형의 이미지 또는 스타일에서의 성능 평가 필요.
👍