Sign In

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Created by
  • Haebom
Category
Empty

저자

Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun

개요

본 논문은 기존의 텍스트 기반 Retrieval-augmented generation (RAG) 시스템의 한계를 극복하기 위해, 비전-언어 모델(VLM) 기반의 RAG 파이프라인인 VisRAG를 제시합니다. VisRAG는 문서를 텍스트로 파싱하는 대신, VLM을 이용하여 이미지로 직접 임베딩하고 검색하여 VLM의 생성을 향상시킵니다. 이를 통해 문서의 정보 손실을 최소화하고, 기존 텍스트 기반 RAG보다 성능을 20-40% 향상시킵니다. 오픈소스 및 합성 데이터를 사용하여 리트리버를 학습하였으며, 다양한 생성 방법을 탐구했습니다. 실험 결과 VisRAG는 기존 RAG보다 검색 및 생성 단계 모두에서 우수한 성능을 보이며, 효율적인 데이터 활용 및 강력한 일반화 능력을 가지는 것으로 나타났습니다. 코드와 데이터는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
기존 텍스트 기반 RAG의 한계를 극복하고, 다양한 모달리티(시각 정보 포함)를 활용하는 RAG 시스템을 제시.
문서 파싱 과정에서 발생하는 정보 손실을 최소화하여 성능 향상.
VLM 기반의 효율적인 데이터 활용 및 강력한 일반화 능력을 보여줌.
20-40%의 end-to-end 성능 향상을 달성.
오픈소스 코드와 데이터 공개를 통한 연구 확장 가능성 제시.
한계점:
제시된 VisRAG의 성능 향상이 특정 데이터셋에 국한될 가능성.
다양한 유형의 다모달 문서에 대한 일반화 성능 평가 추가 필요.
VLM의 계산 비용 및 학습에 필요한 데이터 양 고려 필요.
실제 응용 분야에서의 효용성에 대한 추가적인 연구 필요.
👍