Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TASER : Agents de table pour l'extraction et la recommandation guidées par schéma

Created by
  • Haebom

Auteur

Nicole Cho, Kirsty Fielding, William Watson, Sumitra Ganesh, Manuela Veloso

Contour

Cet article présente TASER (Table Agents for Schema-guided Extraction and Recommendation), un système basé sur des agents permettant d'extraire des données tabulaires non structurées de plusieurs pages à partir de documents financiers réels. TASER transforme les tables non structurées en sorties régularisées et conformes aux schémas grâce à des agents qui effectuent la détection, la classification, l'extraction et les suggestions de modification de schéma. Plus précisément, TASER intègre des améliorations de schéma grâce à l'apprentissage continu, met l'accent sur l'efficacité de l'apprentissage par lots à grande échelle et améliore les performances de 10,1 % par rapport aux modèles existants tels que Table Transformer. De plus, nous présentons un nouvel ensemble de données tabulaires financières, TASERTab, qui comprend 22 584 pages (28 150 449 jetons), 3 213 tables et un total de données d'actifs d'une valeur de 731 685 511 687 $.

Takeaways, Limitations

Takeaways:
Fournit une solution efficace au problème d'extraction de données de tableau complexes et non structurées à partir de documents financiers réels.
Démontrer l'efficacité d'un système d'extraction basé sur des agents et guidé par des schémas
Soulignez l’importance de l’amélioration des performances et de l’amélioration des schémas grâce à l’apprentissage continu.
Permettre la recherche en publiant un ensemble de données à grande échelle, TASERTab, comprenant des données financières du monde réel.
Amélioration des performances de 10,1 % par rapport à Table Transformer
Recommandations de schéma améliorées et extraction accrue des ressources grâce à l'apprentissage par lots à grande échelle (9,8 %).
Limitations:
Les informations actuellement disponibles sont insuffisantes pour fournir une description détaillée de l’architecture et des algorithmes spécifiques du système TASER.
Une analyse plus approfondie de la qualité et du biais de l’ensemble de données TASERTab est nécessaire.
L’évaluation des performances de généralisation est requise pour différents types de documents financiers et de structures de tableaux.
Manque d’analyse comparative avec d’autres systèmes basés sur des agents.
👍