본 논문은 다중 모달 대규모 언어 모델의 성능 향상을 위해 외부에서 검색된 다중 모달 지식을 통합하는 다중 모달 검색 증강 생성(MMRAG)의 두 가지 주요 과제, 즉 매개변수 지식과 검색된 지식 간의 불일치(PRKI) 및 시각적, 텍스트적 지식 간의 불일치(VTKI)를 해결하는 새로운 프레임워크인 CoRe-MMRAG를 제안합니다. CoRe-MMRAG는 매개변수 지식으로부터 내부 응답을 생성하고, 공동 유사성 평가를 통해 가장 관련성이 높은 다중 모달 증거를 선택하여 외부 응답을 생성한 후, 두 응답을 통합하여 신뢰할 수 있는 답변을 생성하는 4단계 파이프라인을 따릅니다. 특수한 훈련 방식을 통해 지식 소스 식별, 다중 모달 통합 및 통합된 답변 생성을 향상시킵니다. KB-VQA 벤치마크 실험 결과, CoRe-MMRAG는 기준 방법보다 상당한 성능 향상을 달성하여 InfoSeek에서 5.6%, Encyclopedic-VQA에서 9.3%의 성능 향상을 보였습니다.