Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PP-DocBee : Améliorer la compréhension des documents multimodaux grâce à un ensemble d'astuces

Created by
  • Haebom

Auteur

Feng Ni, Kui Huang, Yao Lu, Wenyu Lv, Guanzhong Wang, Zeyu Chen, Yi Liu

Contour

Dans cet article, nous présentons PP-DocBee, un nouveau modèle linguistique multimodal à grande échelle pour la compréhension intégrale des images de documents. Il répond au besoin croissant d'analyse de contenu des images de documents, lié au développement rapide de la numérisation. Nous construisons divers ensembles de données grâce à des stratégies de synthèse de données adaptées aux scénarios documentaires afin d'améliorer les performances de généralisation du modèle. Nous appliquons également plusieurs techniques d'apprentissage, telles que l'échantillonnage proportionnel dynamique, le prétraitement des données et le post-traitement OCR. Les résultats expérimentaux montrent que PP-DocBee atteint des performances de pointe dans les tests de compréhension de documents en anglais et surpasse les modèles open source et commerciaux existants pour la compréhension de documents en chinois. Le code source et les modèles pré-entraînés sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous avons considérablement amélioré les performances de compréhension des images de documents grâce à divers ensembles de données et à des techniques de formation efficaces.
Il démontre des performances supérieures aux modèles existants en matière de compréhension de documents en anglais et en chinois.
Il est publié en open source et peut être utilisé pour diverses recherches et applications.
Limitations:
Les spécificités de la stratégie de synthèse des données mentionnées dans l’article font défaut.
ÉTant donné que l’évaluation des performances est axée sur des langues spécifiques (anglais, chinois), des recherches supplémentaires sont nécessaires sur la généralisation des performances à d’autres langues.
Il y a un manque d’informations sur la taille du modèle et les ressources nécessaires pour le former.
👍