본 논문은 시각적으로 풍부한 문서 이해(VRDU) 분야에서 다중 모달 대규모 언어 모델(MLLM)의 최근 발전을 검토한다. MLLM은 광학 문자 인식(OCR) 기반 및 비 OCR 기반 프레임워크를 활용하여 문서 이미지의 정보를 추출하고 해석하는 능력을 보여주었다. 본 논문에서는 텍스트, 시각 및 레이아웃 특징의 인코딩 및 융합 방법, 사전 훈련 전략, 지시-응답 미세 조정 및 다양한 모델 모듈의 훈련 가능성을 포함한 훈련 패러다임, 그리고 사전 훈련, 지시 미세 조정 및 지도 학습 미세 조정에 사용되는 데이터셋 등 세 가지 핵심 구성 요소를 중점적으로 다룬다. 마지막으로, 이 진화하는 분야의 과제와 기회를 논의하고 VRDU 시스템의 효율성, 일반화 능력 및 견고성을 향상시키기 위한 미래 방향을 제시한다.