Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Document Haystack: Un contexto extenso de comprensión de imágenes y documentos multimodales Visión LLM Benchmark

Created by
  • Haebom

Autor

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur

Describir

Este artículo destaca que, a pesar de los avances en los modelos lingüísticos multimodales a gran escala (LLM), que han mejorado significativamente la capacidad de analizar y comprender entradas de datos complejos en múltiples modalidades, el procesamiento de documentos extensos sigue siendo un área sin explotar debido a la falta de puntos de referencia adecuados. Para abordar esta situación, este artículo presenta Document Haystack, un punto de referencia integral diseñado para evaluar el rendimiento de los Modelos de Lenguaje de Visión (VLM) en documentos extensos visualmente complejos. Document Haystack abarca documentos de entre 5 y 200 páginas e inserta estratégicamente "agujas" de texto puro o texto e imagen multimodales a diferentes profundidades dentro del documento para desafiar las capacidades de recuperación de los VLM. Comprende 400 variantes de documentos y un total de 8250 preguntas, lo que respalda un marco de evaluación objetivo y automatizado. Este artículo detalla la construcción y las características del conjunto de datos Document Haystack, presenta los resultados de los VLM clave y analiza las posibles líneas de investigación en esta área.

Takeaways, Limitations

Takeaways:
Presentamos Document Haystack, un nuevo punto de referencia para evaluar el rendimiento de VLM en documentos largos y visualmente complejos.
Evaluación integral de las capacidades de búsqueda de VLM, incluidos documentos de diversa longitud y complejidad.
Mejorar la reproducibilidad y comparabilidad de la investigación proporcionando un marco de evaluación objetivo y automatizado.
Contribuir a la dirección y desarrollo de futuras investigaciones de VLM.
Limitations:
La necesidad de una mayor expansión del conjunto de datos Document Haystack en el futuro.
Es necesario evaluar el desempeño de la generalización para varios tipos de información visual y estructuras de documentos.
Se necesita más investigación sobre su relevancia y aplicabilidad a escenarios de aplicaciones del mundo real.
👍