본 논문은 시각적으로 풍부한 문서에서 정보를 이해하는 것이 기존 RAG(Retrieval-Augmented Generation) 방법론의 중요한 과제임을 지적합니다. 기존 벤치마크는 주로 이미지 기반 질의응답(QA)에 초점을 맞추어 밀집 시각 문서 내 효율적인 검색, 이해 및 추론이라는 근본적인 문제점을 간과합니다. 이러한 간극을 해소하기 위해 복잡한 추론을 필요로 하는 시각적으로 풍부한 문서에 대한 RAG 성능을 평가하기 위한 새로운 데이터셋인 ViDoSeek을 제시합니다. ViDoSeek 기반으로 현재 RAG 접근 방식의 주요 한계점, 즉 (i) 순전히 시각적인 검색 방법은 텍스트 및 시각적 특징을 효과적으로 통합하는 데 어려움을 겪고, (ii) 기존 접근 방식은 종종 추론 토큰을 부족하게 할당하여 효율성을 제한한다는 점을 밝힙니다. 이러한 과제를 해결하기 위해 본 논문은 시각적 문서 전반에 걸친 복잡한 추론에 맞춰 설계된 새로운 다중 에이전트 RAG 프레임워크인 ViDoRAG를 제안합니다. ViDoRAG는 가우시안 혼합 모델(GMM) 기반 하이브리드 전략을 사용하여 다중 모드 검색을 효과적으로 처리합니다. 모델의 추론 능력을 더욱 향상시키기 위해 탐색, 요약 및 반성을 통합하는 반복적 에이전트 워크플로우를 도입하여 RAG 영역에서 테스트 시간 확장성을 조사하기 위한 프레임워크를 제공합니다. ViDoSeek에 대한 광범위한 실험을 통해 제안된 접근 방식의 효과와 일반화 성능을 검증합니다. 특히, ViDoRAG는 경쟁적인 ViDoSeek 벤치마크에서 기존 방법보다 10% 이상의 성능 향상을 보였습니다.