본 논문은 다양한 형식(PDF, PPTX 등)과 모드(차트, 표 등)로 제공되는 시각적으로 풍부한 문서 집합에 대한 질문에 답하는 검색 증강 생성(RAG) 프레임워크인 VDocRAG를 제시합니다. VDocRAG는 문서 파싱으로 인한 정보 손실을 방지하기 위해 다양한 문서와 모드를 통합된 이미지 형식으로 직접 이해합니다. 성능 향상을 위해 시각 정보를 밀집 토큰 표현으로 압축하고 문서의 텍스트 콘텐츠와 정렬하는 새로운 자기 지도 학습 전처리 작업을 제안합니다. 또한, 다양한 문서 유형과 형식을 포함하는 최초의 개방형 도메인 문서 시각적 질문 응답 데이터셋인 OpenDocVQA를 소개합니다. 실험 결과, VDocRAG는 기존의 텍스트 기반 RAG를 상당히 능가하며 강력한 일반화 능력을 보여줍니다.