Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMDocIR: Benchmarking Multimodal Retrieval for Long Documents

Created by
  • Haebom
Category
Empty

저자

Kuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu

개요

본 논문은 다양한 형태의 멀티모달 콘텐츠(그림, 표, 차트, 레이아웃 정보 등)를 대규모 문서에서 식별하고 검색하는 것을 목표로 하는 멀티모달 문서 검색(Multimodal document retrieval)을 위한 새로운 벤치마크 MMDocIR을 소개합니다. 이 벤치마크는 페이지 수준 및 레이아웃 수준 검색이라는 두 가지 별개의 작업을 포함하며, 1,685개의 전문가 주석이 달린 질문과 173,843개의 부트스트랩 레이블이 있는 질문을 특징으로 하는 풍부한 데이터 세트를 제공합니다. 실험 결과는 시각적 검색기가 텍스트 기반 검색기보다 뛰어난 성능을 보이며, MMDocIR 훈련 세트가 멀티모달 문서 검색의 성능을 향상시키고, VLM-텍스트를 활용하는 텍스트 검색기가 OCR-텍스트를 사용하는 검색기보다 우수함을 보여줍니다.

시사점, 한계점

시사점:
멀티모달 문서 검색을 위한 포괄적이고 강력한 벤치마크 부재 문제를 해결.
페이지 수준 및 레이아웃 수준 검색을 포함하는 MMDocIR 벤치마크 개발.
시각적 검색기의 우수성, MMDocIR 훈련 세트의 효과, VLM-텍스트 기반 텍스트 검색기의 우수성을 입증.
연구 커뮤니티에 귀중한 데이터 세트(MMDocIR) 제공.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍