본 논문은 다양한 모달리티의 복잡한 데이터 입력을 분석하고 이해하는 능력을 크게 향상시킨 다중 모달 대규모 언어 모델(LLM)의 발전에도 불구하고, 적절한 벤치마크의 부족으로 인해 긴 문서 처리가 여전히 미개척 분야임을 지적합니다. 이를 해결하기 위해, 본 논문은 시각적으로 복잡한 긴 문서에서 Vision Language Models (VLMs)의 성능을 평가하도록 설계된 포괄적인 벤치마크인 Document Haystack을 제시합니다. Document Haystack은 5페이지에서 200페이지에 이르는 문서를 특징으로 하며, VLMs의 검색 능력에 도전하기 위해 순수 텍스트 또는 다중 모달 텍스트+이미지 "바늘"을 문서 내 다양한 깊이에 전략적으로 삽입합니다. 400개의 문서 변형과 총 8,250개의 질문으로 구성되며, 객관적이고 자동화된 평가 프레임워크를 지원합니다. 본 논문은 Document Haystack 데이터셋의 구성과 특징을 자세히 설명하고, 주요 VLMs의 결과를 제시하며, 이 분야의 잠재적인 연구 방향을 논의합니다.