본 논문은 다양한 이미지 생성 작업을 단일 프레임워크 내에서 통합하는 문제를 해결하기 위해 비디오 모델을 기반으로 하는 새로운 프레임워크 RealGeneral을 제시합니다. 기존의 이미지 생성 모델들은 작업별 데이터셋과 대규모 학습에 의존하거나, 사전 훈련된 이미지 모델을 작업 특정 방식으로 수정하는 방식을 사용하여 일반화 성능이 제한적이었습니다. RealGeneral은 이미지 생성을 조건부 프레임 예측 작업으로 재구성하여, 대규모 언어 모델(LLM)의 컨텍스트 학습과 유사한 방식을 채택합니다. 여기에는 다중 모드 정렬을 위한 통합 조건부 임베딩 모듈과, 다중 모드 간섭을 완화하기 위한 분리된 적응형 LayerNorm과 어텐션 마스크를 갖는 통합 스트림 DiT 블록이 포함됩니다. RealGeneral은 사용자 정의 생성에서 주제 유사성을 14.5% 향상시키고, Canny 이미지에서 실제 이미지 생성 작업에서 이미지 품질을 10% 향상시키는 등 여러 시각적 생성 작업에서 효과를 보였습니다.