Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

Created by
  • Haebom

저자

Ryota Tanaka, Taichi Iki, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito, Jun Suzuki

개요

본 논문은 다양한 형식(PDF, PPTX 등)과 모드(차트, 표 등)로 제공되는 시각적으로 풍부한 문서 집합에 대한 질문에 답하는 검색 증강 생성(RAG) 프레임워크인 VDocRAG를 제시합니다. VDocRAG는 문서 파싱으로 인한 정보 손실을 방지하기 위해 다양한 문서와 모드를 통합된 이미지 형식으로 직접 이해합니다. 성능 향상을 위해 시각 정보를 밀집 토큰 표현으로 압축하고 문서의 텍스트 콘텐츠와 정렬하는 새로운 자기 지도 학습 전처리 작업을 제안합니다. 또한, 다양한 문서 유형과 형식을 포함하는 최초의 개방형 도메인 문서 시각적 질문 응답 데이터셋인 OpenDocVQA를 소개합니다. 실험 결과, VDocRAG는 기존의 텍스트 기반 RAG를 상당히 능가하며 강력한 일반화 능력을 보여줍니다.

시사점, 한계점

시사점:
시각적으로 풍부한 다양한 형식의 문서를 통합적으로 처리하는 새로운 RAG 프레임워크 VDocRAG 제시
문서 파싱 과정에서 발생하는 정보 손실 문제 해결
자기 지도 학습 기반의 효과적인 시각 정보 압축 및 텍스트 콘텐츠 정렬 방법 제안
다양한 문서 유형과 형식을 포함하는 새로운 개방형 도메인 데이터셋 OpenDocVQA 공개
기존 텍스트 기반 RAG 대비 우수한 성능 및 일반화 능력 확인
실제 문서에 대한 효과적인 RAG 패러다임의 잠재력 제시
한계점:
OpenDocVQA 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요
VDocRAG의 성능 향상에 기여한 요소에 대한 심층적인 분석 필요
특정 유형의 시각 정보나 문서 형식에 대한 취약성 존재 가능성
실제 응용 환경에서의 확장성 및 안정성에 대한 추가적인 평가 필요
👍