Bài báo này nhấn mạnh rằng mặc dù các mô hình ngôn ngữ quy mô lớn đa phương thức (LLM) đã có những tiến bộ đáng kể, giúp cải thiện đáng kể khả năng phân tích và hiểu dữ liệu đầu vào phức tạp trên nhiều phương thức, nhưng việc xử lý tài liệu dài vẫn là một lĩnh vực chưa được khai thác do thiếu các chuẩn mực phù hợp. Để giải quyết vấn đề này, bài báo trình bày Document Haystack, một chuẩn mực toàn diện được thiết kế để đánh giá hiệu suất của các Mô hình Ngôn ngữ Thị giác (VLM) trên các tài liệu dài phức tạp về mặt thị giác. Document Haystack có các tài liệu từ 5 đến 200 trang và chèn một cách chiến lược các "kim" văn bản thuần túy hoặc văn bản và hình ảnh đa phương thức ở các độ sâu khác nhau trong tài liệu để thách thức khả năng truy xuất của VLM. Nó bao gồm 400 biến thể tài liệu và tổng cộng 8.250 câu hỏi, hỗ trợ một khuôn khổ đánh giá khách quan và tự động. Bài báo này trình bày chi tiết về cấu trúc và các đặc điểm của bộ dữ liệu Document Haystack, trình bày kết quả từ các VLM chính và thảo luận về các hướng nghiên cứu tiềm năng trong lĩnh vực này.