We introduce DocVLM, a method that integrates an OCR-based modality into VLMs to enhance document processing while preserving original weights.
•
Our approach employs an OCR encoder to capture textual content and layout, compressing these into a compact set of learned queries incorporated into the VLM.
•
Model agnostic 하게 DocVLM 적용 가능 (InternVL2, Qwen2-VL, LLaVA-OneVision)
•
Contribution
◦
모델 독립적 OCR 정보 통합 방법 제안
◦
OCR 정보를 64개 쿼리로 압축해 연산 부담 감소
◦
다양한 VLM에서 성능 향상 확인 (특히 448×448 입력 환경)
◦
멀티페이지 문서에서도 강력한 성능 (DUDE 제로샷, MP-DocVQA SOTA 달성)
1. Introduction
•
tension between resolution requirements and computational efficiency
•
OCR 텍스트를 직접 언어 모델 프롬프트에 넣는 방식은 시각적 맥락과 레이아웃 정보를 놓치며, 긴 시퀀스로 인해 지연과 비용 증가 초래
•
최근 VLM들은 이미지 토큰 수 줄이기 위한 기법을 도입했지만, 성능 저하 문제 발생
2. Related Work
•
Document Representation Compression
◦
Q-former, Resampler, TokenPacker, DocComperesor 등 Document 에 대한 Representation 방법론들.
3. Our Method
3.1 Architecture
•
VLM 아키텍쳐를 보완하는 형태
◦
an OCR encoder
▪
DocFormerV2 (weight 공개된 게 없는 듯 함) / T5-based encoder-decoder
▪
Visual Branch 는 사용 안함.
◦
a query compression mechanism that distills this information into a compact representation.
•
Query Compression Mechanism
◦
DocVLM은 OCR 정보를 효과적으로 통합하기 위해 instruction-aware query compression 메커니즘 도입
◦
OCR 인코더 출력을 64개 learned queries로 압축해 LLM 입력 시퀀스 길이 대폭 축소
◦
learned queries 는 OCR encoder embeddings’ distribution를 기반으로 랜덤 초기화