Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval

Created by
  • Haebom
Category
Empty

저자

Anup Roy, Rishabh Gyanendra Upadhyay, Animesh Rameshbhai Panara, Robin Mills

VisionRAG: OCR Free Multimodal Retrieval for Document Question Answering

개요

VisionRAG은 OCR을 사용하지 않고 이미지 형태로 문서를 직접 색인하는 다중 모드 검색 시스템입니다. 레이아웃, 표, 공간적 단서를 보존하며, 특정 추출 방식에 얽매이지 않고 의미 벡터를 구축합니다. VisionRAG는 3단계 피라미드 색인 프레임워크를 사용하여 페이지 요약, 섹션 헤더, 시각적 핫스팟, 사실 수준 단서를 기반으로 벡터를 생성합니다. 검색 시, 피라미드 색인을 사용하여 가장 관련성이 높은 페이지를 검색한 후, 원시 페이지 이미지를 base64로 인코딩하여 다중 모드 LLM에 전달하여 최종 질문에 답변합니다. VisionRAG는 페이지당 17~27개의 벡터만 저장하며, 금융 문서 벤치마크에서 높은 정확도와 재현율을 달성했습니다.

시사점, 한계점

시사점:
OCR 없이 이미지 기반으로 문서 검색을 수행하여 기존 텍스트 기반 파이프라인의 단점을 극복.
레이아웃, 표, 시각적 단서를 보존하여 정보 손실을 최소화.
특정 비전 백본에 의존하지 않고, 다양한 다중 모드 인코더에서 유연하게 사용 가능.
낮은 메모리 오버헤드로 대규모 문서 처리에 적합.
금융 문서 벤치마크에서 우수한 성능을 입증.
한계점:
아직 구체적인 한계점은 명시되지 않음. (논문 내용을 통해 추론할 수 있는 한계점은 없음)
👍