본 논문은 질의 응답 정확도 향상을 위해 외부 지식을 검색하고 생성 과정에 통합하는 Retrieval-Augmented Generation (RAG) 전략을 비디오 데이터에 적용한 VideoRAG 프레임워크를 제시합니다. 기존 RAG는 주로 텍스트에 초점을 맞추거나 이미지를 부분적으로 고려했지만, 비디오의 다중 모달 정보 활용에는 미흡했습니다. VideoRAG는 대규모 비디오 언어 모델(LVLMs)을 활용하여 질의와 관련된 비디오를 동적으로 검색하고, 시각 및 텍스트 정보를 모두 활용하여 응답을 생성합니다. 특히, 매우 긴 비디오의 모든 프레임을 처리하는 데 LVLMs의 문맥 크기가 부족할 수 있다는 점과 모든 프레임이 동일하게 중요하지 않다는 점을 고려하여, 정보가 가장 풍부한 프레임을 선택하는 메커니즘과 자막이 없는 비디오의 텍스트 정보를 추출하는 전략을 제시합니다. 실험 결과 VideoRAG의 우수성을 검증하고, 코드를 공개합니다.