Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

Created by
  • Haebom
Category
Empty

저자

Yijing Lin, Mengqi Huang, Shuhan Zhuang, Zhendong Mao

개요

본 논문은 다양한 이미지 생성 작업을 단일 프레임워크 내에서 통합하는 문제를 해결하기 위해 비디오 모델을 기반으로 하는 새로운 프레임워크 RealGeneral을 제시합니다. 기존의 이미지 생성 모델들은 작업별 데이터셋과 대규모 학습에 의존하거나, 사전 훈련된 이미지 모델을 작업 특정 방식으로 수정하는 방식을 사용하여 일반화 성능이 제한적이었습니다. RealGeneral은 이미지 생성을 조건부 프레임 예측 작업으로 재구성하여, 대규모 언어 모델(LLM)의 컨텍스트 학습과 유사한 방식을 채택합니다. 여기에는 다중 모드 정렬을 위한 통합 조건부 임베딩 모듈과, 다중 모드 간섭을 완화하기 위한 분리된 적응형 LayerNorm과 어텐션 마스크를 갖는 통합 스트림 DiT 블록이 포함됩니다. RealGeneral은 사용자 정의 생성에서 주제 유사성을 14.5% 향상시키고, Canny 이미지에서 실제 이미지 생성 작업에서 이미지 품질을 10% 향상시키는 등 여러 시각적 생성 작업에서 효과를 보였습니다.

시사점, 한계점

시사점:
비디오 모델을 활용하여 다양한 이미지 생성 작업을 단일 프레임워크에서 통합하는 새로운 접근 방식 제시.
LLM의 컨텍스트 학습과 유사한 방식을 이미지 생성에 적용하여 일반화 성능 향상.
사용자 정의 생성 및 Canny 이미지에서 실제 이미지 생성 등 다양한 작업에서 성능 향상을 입증.
한계점:
제시된 방법의 확장성 및 다른 유형의 이미지 생성 작업에 대한 일반화 성능에 대한 추가적인 연구 필요.
비디오 모델 기반 접근 방식의 계산 비용 및 메모리 효율성에 대한 분석 필요.
다양한 데이터셋과 작업에 대한 광범위한 실험을 통해 성능을 더욱 객관적으로 평가해야 함.
👍