본 논문은 최첨단 다중 모달 대규모 언어 모델(MLLM)이 시각적 질문 응답(VQA) 과제에서 우수한 성능을 보이지만, 특정 도메인이나 최신 지식에 접근하는 데 어려움을 겪는다는 점을 지적합니다. 이 문제를 해결하기 위해 외부 지식 기반(KB)을 활용하는 검색 증강 생성(RAG) 방식인 KB-VQA를 제안합니다. 기존의 단일 모달 검색 기법은 이미지를 텍스트 설명으로 변환하는 과정에서 중요한 시각적 세부 정보를 잃을 수 있다는 한계를 극복하고자, 텍스트 스니펫과 개체 이미지를 벡터 데이터베이스에 저장하는 세분화된 지식 단위를 제시합니다. 그리고 이를 MLLM과 통합하는 지식 단위 검색 증강 생성 프레임워크(KU-RAG)를 제안합니다. KU-RAG는 지식 수정 체인을 통해 관련 지식의 정확한 검색과 추론 능력 향상을 보장하며, 주요 KB-VQA 방법의 성능을 최대 10%까지 향상시키는 결과를 보여줍니다.