본 논문은 다중 모달 대규모 언어 모델(MLLM)의 최근 발전을 개괄적으로 살펴본다. 텍스트 생성을 넘어 이미지, 음악, 비디오, 인간의 움직임, 3D 객체 등 다양한 출력 모달리티를 생성하는 MLLM의 능력을 다루며, 여러 감각 모달리티를 통합하는 아키텍처를 중심으로 언어와 다른 감각 정보의 통합을 분석한다. 주요 생성 모달리티 여섯 가지를 분류하고, 자기 지도 학습(SSL), 전문가 혼합(MoE), 인간 피드백 강화 학습(RLHF), 사고 연쇄(CoT) 프롬프팅 등 기본적인 기법이 어떻게 크로스-모달 기능을 가능하게 하는지 조사한다. 주요 모델, 아키텍처 동향, 새로운 크로스-모달 시너지를 분석하고, 전이 가능한 기법과 해결되지 않은 과제를 강조한다. 트랜스포머와 확산 모델과 같은 아키텍처 혁신이 크로스-모달 전이와 모듈식 특수화를 가능하게 하는 기반이 된다는 점을 언급하며, 시너지의 새로운 패턴을 강조하고, 평가, 모듈성, 구조화된 추론 분야의 미해결 과제를 제시한다. 궁극적으로 MLLM 개발에 대한 통합적인 관점을 제공하고, 더욱 범용적이고, 적응적이며, 해석 가능한 다중 모달 시스템을 향한 중요한 경로를 제시한다.