Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Document Haystack : une vision multimodale de compréhension d'images/documents à long contexte, référence LLM

Created by
  • Haebom

Auteur

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur

Contour

Cet article souligne que malgré les progrès des modèles linguistiques multimodaux à grande échelle (MLA), qui ont considérablement amélioré la capacité d'analyse et de compréhension de données complexes issues de multiples modalités, le traitement de documents longs reste un domaine inexploité en raison du manque de référentiels appropriés. Pour y remédier, cet article présente Document Haystack, un référentiel complet conçu pour évaluer les performances des modèles linguistiques visuels (MLV) sur des documents longs visuellement complexes. Document Haystack présente des documents de 5 à 200 pages et insère stratégiquement du texte pur ou des « aiguilles » multimodales de texte et d'images à différentes profondeurs du document afin de tester les capacités de recherche des MLV. Il comprend 400 variantes de documents et un total de 8 250 questions, soutenant un cadre d'évaluation objectif et automatisé. Cet article détaille la construction et les caractéristiques de l'ensemble de données Document Haystack, présente les résultats des principaux MLV et discute des pistes de recherche potentielles dans ce domaine.

Takeaways, Limitations

Takeaways:
Nous présentons Document Haystack, un nouveau benchmark permettant d'évaluer les performances de VLM sur des documents longs et visuellement complexes.
ÉValuation complète des capacités de recherche de VLM, y compris des documents de longueur et de complexité variables.
Améliorer la reproductibilité et la comparabilité de la recherche en fournissant un cadre d’évaluation objectif et automatisé.
Contribuer à l’orientation et au développement des futures recherches VLM.
Limitations:
La nécessité d’étendre davantage l’ensemble de données Document Haystack à l’avenir.
Il est nécessaire d’évaluer les performances de généralisation pour différents types d’informations visuelles et de structures de documents.
Des recherches supplémentaires sont nécessaires sur sa pertinence et son applicabilité aux scénarios d’application du monde réel.
👍