본 논문은 텍스트 생성에서 벗어나 이미지, 음악, 비디오, 인간 동작, 3D 객체 등 다양한 출력 모달리티를 포괄하는 멀티모달 생성 모델(MGMs)의 발전을 다룬다. 셀프 지도 학습(SSL), 전문가 혼합(MoE), 인간 피드백 기반 강화 학습(RLHF), 사고의 연쇄(CoT) 프롬프팅과 같은 기본적인 기술들이 어떻게 이러한 교차 모달리티 능력을 가능하게 하는지 살펴본다. 주요 모델, 구조적 트렌드 및 새로운 교차 모달리티 시너지 효과를 분석하고, 이전 가능한 기술과 해결되지 않은 과제를 강조한다. 또한, 모델 및 훈련 레시피의 일반적인 분류법을 기반으로 충실성, 구성성, 견고성에 초점을 맞춘 통합 평가 프레임워크를 제안하고, 벤치마크와 인간 연구에서 얻은 증거를 종합한다. 멀티모달 편향, 개인 정보 유출, 딥페이크, 허위 정보, 음악 및 3D 자산의 저작권 침해 등 신뢰성, 안전성, 윤리적 위험을 분석하고 완화 전략을 제시한다. 마지막으로, 현재의 능력 및 안전성 격차를 좁히기 위해 구조적 트렌드, 평가 프로토콜, 거버넌스 메커니즘을 공동 설계하고, 보다 일반적이고 제어 가능하며 책임감 있는 멀티모달 생성 시스템을 위한 중요한 경로를 제시한다.