Este artículo destaca que, a pesar de los avances en los modelos lingüísticos multimodales a gran escala (LLM), que han mejorado significativamente la capacidad de analizar y comprender entradas de datos complejos en múltiples modalidades, el procesamiento de documentos extensos sigue siendo un área sin explotar debido a la falta de puntos de referencia adecuados. Para abordar esta situación, este artículo presenta Document Haystack, un punto de referencia integral diseñado para evaluar el rendimiento de los Modelos de Lenguaje de Visión (VLM) en documentos extensos visualmente complejos. Document Haystack abarca documentos de entre 5 y 200 páginas e inserta estratégicamente "agujas" de texto puro o texto e imagen multimodales a diferentes profundidades dentro del documento para desafiar las capacidades de recuperación de los VLM. Comprende 400 variantes de documentos y un total de 8250 preguntas, lo que respalda un marco de evaluación objetivo y automatizado. Este artículo detalla la construcción y las características del conjunto de datos Document Haystack, presenta los resultados de los VLM clave y analiza las posibles líneas de investigación en esta área.