본 논문은 대규모 시각-언어 모델(LVLMs)의 성능 향상을 위해 검색 증강 생성(RAG) 파이프라인을 체계적으로 분석합니다. LVLMs는 정적 훈련 데이터, 환각 현상, 최신 외부 증거 검증 불가능성 등의 한계를 가지는데, RAG는 외부 지식 데이터베이스 접근을 통해 이러한 문제를 완화합니다. 본 논문은 검색 단계(모달리티 구성 및 검색 전략), 재순위 지정 단계(위치 편향 완화 및 관련 증거 개선 전략), 생성 단계(검색된 후보 통합 방식)를 개별적으로 조사하고, 자기 반성을 통한 재순위 지정 및 생성 통합 에이전트 프레임워크를 제시합니다. 파인튜닝 없이 평균 5%의 성능 향상을 달성하였습니다.