Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Problème résolu ? Espace de conception d'extraction d'informations pour documents riches en mise en page grâce aux LLM
Created by
Haebom
Auteur
Gaye Colakoglu, G urkan Solmaz, Jonathan F urst
Contour
Cet article définit et explore un espace de conception pour l'extraction d'informations (IE) à partir de documents riches en mise en page, à l'aide d'un modèle de langage à grande échelle (LLM). Les trois principaux défis de l'IE sensible à la mise en page utilisant les LLM sont la structuration des données, l'engagement du modèle et l'amélioration de la sortie. Nous étudions les sous-problèmes et les méthodes de représentation des entrées, de découpage, d'invite, de sélection des LLM et de modèles multimodaux. Grâce à LayIE-LLM, une nouvelle suite de tests open source pour l'IE sensible à la mise en page, nous comparons l'efficacité de différents choix de conception à celle de modèles d'IE optimisés existants. Les résultats obtenus sur deux jeux de données d'IE démontrent que les LLM nécessitent un optimisation du pipeline d'IE pour atteindre des performances compétitives. Les configurations optimisées obtenues avec LayIE-LLM surpassent les configurations de référence courantes utilisant le même LLM de respectivement 13,3 et 37,5 points F1. Nous développons une méthode asynchrone à un facteur (OFAT) qui se rapproche du résultat optimal, nécessitant une fraction (2,8 %) de l'effort de calcul et ne sous-performant que de 0,8 et 1,8 points respectivement par rapport à la meilleure recherche factorielle complète. Globalement, nous démontrons qu'un LLM polyvalent correctement configuré offre des performances équivalentes à celles des modèles spécialisés et constitue une alternative économique et sans ajustements. La suite de tests est disponible à l' adresse https://github.com/gayecolakoglu/LayIE-LLM .
Nous présentons une méthodologie efficace pour l'extraction d'informations à partir de documents riches en mise en page : LLM peut atteindre des performances similaires ou supérieures à celles des modèles affinés existants.
◦
Offrir une alternative rentable : extraire des informations à l'aide d'un LLM à usage général sans réglage fin.
◦
Suite de tests open source LayIE-LLM publiée : Contribuez à la comparaison des performances et à la recherche de divers LLM et méthodologies.
◦
Une méthode efficace de recherche de paramètres (OFAT) est présentée : approche des performances optimales tout en réduisant la complexité de calcul.
•
Limitations:
◦
Limitations des ensembles de données utilisés : Manque de validation de la généralisabilité en utilisant seulement deux ensembles de données.
◦
Garantie de l'optimalité de la méthode OFAT X: Il y a une légère dégradation des performances par rapport à la recherche factorielle complète.
◦
Dépendance aux performances du LLM : les résultats peuvent changer à mesure que les performances du LLM s'améliorent.