본 논문은 다중 모달 생성형 AI에 대한 포괄적인 개요를 제공합니다. 다중 모달 대규모 언어 모델(LLM)과 확산 모델이라는 두 가지 주요 기술에 초점을 맞춰, 각 모델의 확률적 모델링 절차, 다중 모달 아키텍처 설계, 이미지/비디오 LLM 및 텍스트-이미지/비디오 생성과 같은 고급 응용 프로그램을 자세히 검토합니다. 또한 이해와 생성을 위한 통합 모델에 대한 최근 연구 동향을 탐구하며, 자기회귀 기반 및 확산 기반 모델링, 그리고 밀집 및 전문가 혼합(MoE) 아키텍처를 포함한 주요 설계를 조사하고, 통합 모델을 위한 여러 전략을 분석합니다. 널리 사용되는 다중 모달 생성형 AI 사전 훈련 데이터셋을 요약하고, 미래 연구 방향을 제시합니다.