본 논문은 멀티 모달 생성형 인공지능(AI)에 대한 포괄적인 개요를 제공하며, 멀티 모달 대형 언어 모델(LLM), 확산 모델, 이해와 생성을 위한 통합 모델을 포함한다. 논문은 먼저 멀티 모달 LLM과 확산 모델의 확률적 모델링 절차, 멀티 모달 아키텍처 설계, 이미지/비디오 LLM 및 텍스트-이미지/비디오 생성에 대한 고급 응용 프로그램을 자세히 검토한다. 또한 이해와 생성을 위한 통합 모델을 향한 노력, 오토 회귀 기반 및 확산 기반 모델링, 밀집 및 Mixture-of-Experts (MoE) 아키텍처와 같은 주요 설계에 대해 탐구한다. 논문은 통합 모델을 위한 여러 전략을 소개하고 장단점을 분석하며, 멀티 모달 생성형 AI 사전 훈련에 널리 사용되는 일반적인 데이터 세트를 요약한다. 마지막으로, 멀티 모달 생성형 AI의 지속적인 발전에 기여할 수 있는 몇 가지 도전적인 미래 연구 방향을 제시한다.