본 논문은 다양한 형태의 멀티모달 콘텐츠(그림, 표, 차트, 레이아웃 정보 등)를 대규모 문서에서 식별하고 검색하는 것을 목표로 하는 멀티모달 문서 검색(Multimodal document retrieval)을 위한 새로운 벤치마크 MMDocIR을 소개합니다. 이 벤치마크는 페이지 수준 및 레이아웃 수준 검색이라는 두 가지 별개의 작업을 포함하며, 1,685개의 전문가 주석이 달린 질문과 173,843개의 부트스트랩 레이블이 있는 질문을 특징으로 하는 풍부한 데이터 세트를 제공합니다. 실험 결과는 시각적 검색기가 텍스트 기반 검색기보다 뛰어난 성능을 보이며, MMDocIR 훈련 세트가 멀티모달 문서 검색의 성능을 향상시키고, VLM-텍스트를 활용하는 텍스트 검색기가 OCR-텍스트를 사용하는 검색기보다 우수함을 보여줍니다.