본 논문은 기존의 텍스트 기반 Retrieval-augmented generation (RAG) 시스템의 한계를 극복하기 위해, 비전-언어 모델(VLM) 기반의 RAG 파이프라인인 VisRAG를 제시합니다. VisRAG는 문서를 텍스트로 파싱하는 대신, VLM을 이용하여 이미지로 직접 임베딩하고 검색하여 VLM의 생성을 향상시킵니다. 이를 통해 문서의 정보 손실을 최소화하고, 기존 텍스트 기반 RAG보다 성능을 20-40% 향상시킵니다. 오픈소스 및 합성 데이터를 사용하여 리트리버를 학습하였으며, 다양한 생성 방법을 탐구했습니다. 실험 결과 VisRAG는 기존 RAG보다 검색 및 생성 단계 모두에서 우수한 성능을 보이며, 효율적인 데이터 활용 및 강력한 일반화 능력을 가지는 것으로 나타났습니다. 코드와 데이터는 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
기존 텍스트 기반 RAG의 한계를 극복하고, 다양한 모달리티(시각 정보 포함)를 활용하는 RAG 시스템을 제시.