본 논문은 지식 기반 시각 질의응답(KB-VQA) 문제 해결을 위해 시각-언어 검색 증강 생성(RAG) 방식을 개선한 연구입니다. 기존의 시각-언어 RAG 시스템은 다양한 모달리티와 지식의 세분성으로 인해 효과적인 다중 모달 검색에 어려움을 겪었습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 거친 검색부터 세밀한 검색까지 다단계로 진행되는 다중 모달 RAG 시스템을 제안합니다. 먼저, 지식의 세분성을 맞춰 다중 모달 검색을 수행하고, 그 후 다중 모달 정보를 활용하여 최상위 엔티티를 선택합니다. 마지막으로 텍스트 재순위 지정을 통해 생성에 가장 적합한 세분화된 정보를 선택합니다. InfoSeek 및 Encyclopedic-VQA 벤치마크에서 최첨단 검색 성능과 경쟁력 있는 답변 결과를 달성하여 KB-VQA 시스템 발전에 기여함을 보여줍니다.