Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Voir puis dire : Améliorer l'extraction d'informations clés grâce à la vision ancrée

Created by
  • Haebom

Auteur

Shuhang Liu, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Qing Wang, Jianshu Zhang, Chenyu Liu

Contour

Cet article souligne l'importance de la compréhension des documents visuellement riches (texte, mises en page complexes et intégration d'images) et souligne les limites des méthodes d'extraction d'informations clés (KIE) existantes (retard dû à la dépendance à l'OCR, coûts de calcul élevés et erreurs). Pour surmonter ces limites, nous présentons STNet, un nouveau modèle de bout en bout qui extrait le texte directement des images sans OCR. STNet utilise des jetons spéciaux pour observer (voir) les zones d'image pertinentes pour une question et, sur cette base, fournit des réponses précises et un ancrage visuel (dire). Afin d'améliorer les performances du modèle, nous utilisons GPT-4 pour construire le jeu de données TVG (TableQA avec ancrage visuel), qui contient des paires de questions-réponses (QA) textuelles et un ancrage visuel précis. Les résultats expérimentaux démontrent des performances de pointe sur des jeux de données accessibles au public tels que CORD, SROIE et DocVQA. Le code sera également rendu public.

Takeaways, Limitations

Takeaways:
Une nouvelle approche KIE qui s’affranchit de la dépendance à l’OCR est présentée.
Améliorer la précision en fournissant des preuves visuelles dans les questions-réponses basées sur des images.
Créer et publier des ensembles de données de haute qualité à l'aide de GPT-4
Atteindre les performances SOTA sur divers ensembles de données publics
Augmenter la reproductibilité et l'évolutivité de la recherche grâce à la divulgation du code
Limitations:
Une validation supplémentaire de l’échelle et des performances de généralisation de l’ensemble de données TVG est nécessaire.
Il est nécessaire d'évaluer les performances de généralisation du modèle pour des mises en page complexes ou différents types d'images.
Une analyse plus approfondie du coût et de l’efficacité de calcul de STNet est nécessaire.
👍