[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

Created by
  • Haebom

저자

Yijing Lin, Mengqi Huang, Shuhan Zhuang, Zhendong Mao

개요

본 논문은 다양한 이미지 생성 작업을 단일 프레임워크 내에서 통합하는 문제를 해결하기 위해 비디오 모델을 기반으로 하는 새로운 프레임워크인 RealGeneral을 제안합니다. 기존의 이미지 생성 모델들은 작업별 데이터셋과 대규모 학습에 의존하거나 사전 훈련된 이미지 모델을 작업별로 수정하는 방식을 사용하여 일반화 성능이 제한적이었던 반면, RealGeneral은 비디오 모델의 시간적 상관관계 모델링 능력을 활용하여 이미지 생성을 조건부 프레임 예측 작업으로 재구성합니다. 여기에는 다중 모드 정렬을 위한 통합 조건부 임베딩 모듈과 교차 모드 간섭을 완화하기 위한 통합 스트림 DiT 블록이 포함됩니다. 실험 결과, RealGeneral은 사용자 정의 생성 작업에서 주제 유사도를 14.5% 향상시키고, Canny 이미지에서 실제 이미지 생성 작업에서 이미지 품질을 10% 향상시키는 등 다양한 이미지 생성 작업에서 효과를 보였습니다.

시사점, 한계점

시사점:
비디오 모델을 활용하여 다양한 이미지 생성 작업을 통합하는 새로운 접근 방식을 제시합니다.
LLM의 인 컨텍스트 학습과 유사한 방식으로 이미지 생성 문제를 해결합니다.
다양한 이미지 생성 작업에서 기존 모델보다 우수한 성능을 보입니다.
통합 조건부 임베딩 모듈과 통합 스트림 DiT 블록을 통해 다중 모드 간의 효과적인 상호 작용을 가능하게 합니다.
한계점:
제시된 모델의 일반화 성능에 대한 추가적인 검증이 필요합니다.
특정 작업에 대한 과적합 가능성을 배제할 수 없습니다.
비디오 모델을 기반으로 하기 때문에, 비디오 데이터의 가용성이 성능에 영향을 미칠 수 있습니다.
모델의 복잡도 및 계산 비용에 대한 분석이 부족합니다.
👍