VisionRAG은 OCR을 사용하지 않고 이미지 형태로 문서를 직접 색인하는 다중 모드 검색 시스템입니다. 레이아웃, 표, 공간적 단서를 보존하며, 특정 추출 방식에 얽매이지 않고 의미 벡터를 구축합니다. VisionRAG는 3단계 피라미드 색인 프레임워크를 사용하여 페이지 요약, 섹션 헤더, 시각적 핫스팟, 사실 수준 단서를 기반으로 벡터를 생성합니다. 검색 시, 피라미드 색인을 사용하여 가장 관련성이 높은 페이지를 검색한 후, 원시 페이지 이미지를 base64로 인코딩하여 다중 모드 LLM에 전달하여 최종 질문에 답변합니다. VisionRAG는 페이지당 17~27개의 벡터만 저장하며, 금융 문서 벤치마크에서 높은 정확도와 재현율을 달성했습니다.