본 논문은 텍스트, 이미지, 비디오를 함께 이해하는 다중 모달 대형 언어 모델 (MLLM)의 성능 향상을 위해, 외부 문서를 검색하여 답변 생성을 돕는 Reasoning-Augmented Multimodal RAG (ReAG) 방식을 제안한다. 특히, 도메인 특화 및 지식 집약적인 질문에 취약한 기존 MLLM의 한계를 극복하고자, 거친 및 세밀한 검색을 결합하고, 관련 없는 구절을 필터링하는 비평가 모델을 활용하여 고품질의 추가 컨텍스트를 제공한다. 강화 학습 기반의 다단계 훈련 전략을 통해 검색된 콘텐츠에 대한 추론 능력을 향상시키고, Encyclopedic-VQA 및 InfoSeek 데이터셋에서 기존 방법론 대비 향상된 성능을 입증하였다.