Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

Created by
  • Haebom

저자

Yihao Ding, Siwen Luo, Yue Dai, Yanbei Jiang, Zechuan Li, Geoffrey Martin, Yifan Peng

개요

본 논문은 시각적으로 풍부한 문서 이해(VRDU) 분야에서 다중 모달 대규모 언어 모델(MLLM)의 최근 발전을 검토한다. MLLM은 광학 문자 인식(OCR) 기반 및 비 OCR 기반 프레임워크를 활용하여 문서 이미지의 정보를 추출하고 해석하는 능력을 보여주었다. 본 논문에서는 텍스트, 시각 및 레이아웃 특징의 인코딩 및 융합 방법, 사전 훈련 전략, 지시-응답 미세 조정 및 다양한 모델 모듈의 훈련 가능성을 포함한 훈련 패러다임, 그리고 사전 훈련, 지시 미세 조정 및 지도 학습 미세 조정에 사용되는 데이터셋 등 세 가지 핵심 구성 요소를 중점적으로 다룬다. 마지막으로, 이 진화하는 분야의 과제와 기회를 논의하고 VRDU 시스템의 효율성, 일반화 능력 및 견고성을 향상시키기 위한 미래 방향을 제시한다.

시사점, 한계점

시사점:
MLLM 기반 VRDU 시스템의 최신 동향과 발전 방향을 종합적으로 제시한다.
텍스트, 시각, 레이아웃 정보의 효과적인 인코딩 및 융합 방법에 대한 통찰력을 제공한다.
다양한 훈련 패러다임과 데이터셋에 대한 포괄적인 분석을 제공한다.
VRDU 분야의 미래 연구 방향을 제시하여 후속 연구를 위한 중요한 지침을 제공한다.
한계점:
아직 초기 단계의 연구 분야이므로, 다루는 내용의 포괄성에 한계가 있을 수 있다.
새로운 MLLM 모델과 데이터셋이 지속적으로 등장하고 있으므로, 논문 발표 이후 기술 발전을 반영하지 못할 가능성이 있다.
실제 응용 사례에 대한 구체적인 분석이 부족할 수 있다.
특정 MLLM 아키텍처나 접근 방식에 대한 편향이 있을 수 있다.
👍