Cet article souligne que malgré les progrès des modèles linguistiques multimodaux à grande échelle (MLA), qui ont considérablement amélioré la capacité d'analyse et de compréhension de données complexes issues de multiples modalités, le traitement de documents longs reste un domaine inexploité en raison du manque de référentiels appropriés. Pour y remédier, cet article présente Document Haystack, un référentiel complet conçu pour évaluer les performances des modèles linguistiques visuels (MLV) sur des documents longs visuellement complexes. Document Haystack présente des documents de 5 à 200 pages et insère stratégiquement du texte pur ou des « aiguilles » multimodales de texte et d'images à différentes profondeurs du document afin de tester les capacités de recherche des MLV. Il comprend 400 variantes de documents et un total de 8 250 questions, soutenant un cadre d'évaluation objectif et automatisé. Cet article détaille la construction et les caractéristiques de l'ensemble de données Document Haystack, présente les résultats des principaux MLV et discute des pistes de recherche potentielles dans ce domaine.