본 논문은 다양한 이미지 생성 작업을 단일 프레임워크 내에서 통합하는 문제를 해결하기 위해 비디오 모델을 기반으로 하는 새로운 프레임워크인 RealGeneral을 제안합니다. 기존의 이미지 생성 모델들은 작업별 데이터셋과 대규모 학습에 의존하거나 사전 훈련된 이미지 모델을 작업별로 수정하는 방식을 사용하여 일반화 성능이 제한적이었던 반면, RealGeneral은 비디오 모델의 시간적 상관관계 모델링 능력을 활용하여 이미지 생성을 조건부 프레임 예측 작업으로 재구성합니다. 여기에는 다중 모드 정렬을 위한 통합 조건부 임베딩 모듈과 교차 모드 간섭을 완화하기 위한 통합 스트림 DiT 블록이 포함됩니다. 실험 결과, RealGeneral은 사용자 정의 생성 작업에서 주제 유사도를 14.5% 향상시키고, Canny 이미지에서 실제 이미지 생성 작업에서 이미지 품질을 10% 향상시키는 등 다양한 이미지 생성 작업에서 효과를 보였습니다.