본 논문은 멀티모달 AI 시스템의 효과적이고 효율적인 개발을 위한 기술적 기반과 디자인 공간을 제공하고자, 멀티모달 청킹 전략의 지형을 통합하는 것을 목표로 한다. 텍스트, 이미지, 오디오, 비디오 및 교차 모달 데이터를 위한 청킹 전략에 대한 포괄적인 분류와 기술적 분석을 제공한다. 고정 크기 토큰 윈도잉, 재귀적 텍스트 분할, 객체 중심 시각적 청킹, 침묵 기반 오디오 세분화, 비디오의 장면 감지 등 고전적 및 현대적 접근 방식을 검토한다.