본 논문은 거대 시각-언어 모델(LVLMs)의 성능 향상을 위해 검색 증강 생성(RAG) 파이프라인을 체계적으로 분석합니다. 기존 LVLMs의 한계점인 정적 훈련 데이터, 환각 현상, 최신 정보 활용의 어려움을 RAG를 통해 극복하고자 합니다. 구체적으로, 검색 단계(모달리티 구성 및 검색 전략), 재순위 지정 단계(위치 편향 완화 및 관련성 향상 전략), 생성 단계(검색 결과 통합 전략)를 조사하고, 자기 반성을 통한 통합 에이전트 프레임워크를 제시합니다. 파인튜닝 없이 평균 5%의 성능 향상을 달성했습니다.