Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark

Created by
  • Haebom

저자

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur

개요

본 논문은 다양한 모달리티의 복잡한 데이터 입력을 분석하고 이해하는 능력을 크게 향상시킨 다중 모달 대규모 언어 모델(LLM)의 발전에도 불구하고, 적절한 벤치마크의 부족으로 인해 긴 문서 처리가 여전히 미개척 분야임을 지적합니다. 이를 해결하기 위해, 본 논문은 시각적으로 복잡한 긴 문서에서 Vision Language Models (VLMs)의 성능을 평가하도록 설계된 포괄적인 벤치마크인 Document Haystack을 제시합니다. Document Haystack은 5페이지에서 200페이지에 이르는 문서를 특징으로 하며, VLMs의 검색 능력에 도전하기 위해 순수 텍스트 또는 다중 모달 텍스트+이미지 "바늘"을 문서 내 다양한 깊이에 전략적으로 삽입합니다. 400개의 문서 변형과 총 8,250개의 질문으로 구성되며, 객관적이고 자동화된 평가 프레임워크를 지원합니다. 본 논문은 Document Haystack 데이터셋의 구성과 특징을 자세히 설명하고, 주요 VLMs의 결과를 제시하며, 이 분야의 잠재적인 연구 방향을 논의합니다.

시사점, 한계점

시사점:
긴 시각적으로 복잡한 문서에 대한 VLM 성능 평가를 위한 새로운 벤치마크인 Document Haystack 제시.
다양한 길이와 복잡도의 문서를 포함하여 VLM의 검색 능력을 종합적으로 평가 가능.
객관적이고 자동화된 평가 프레임워크 제공으로 연구의 재현성 및 비교 가능성 향상.
향후 VLM 연구의 방향 제시 및 발전에 기여.
한계점:
Document Haystack 데이터셋의 규모가 향후 더욱 확장될 필요성.
다양한 유형의 시각적 정보와 문서 구조에 대한 일반화 성능 평가 필요.
실제 응용 시나리오와의 연관성 및 적용 가능성에 대한 추가 연구 필요.
👍