Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DOGR : Vers une ancrage et un référencement visuels polyvalents des documents

Created by
  • Haebom

Auteur

Yinan Zhou, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

Contour

Cet article met en évidence le développement insuffisant des capacités d'ancrage et de référencement des modèles linguistiques multimodaux à grande échelle (MLLM) pour une compréhension fine et une interaction utilisateur flexible dans le domaine de la compréhension visuelle des documents. Pour y remédier, nous proposons le moteur de données DOcument Grounding and Referring (DOGR-Engine). DOGR-Engine génère deux types de données documentaires fines et de haute qualité : (1) des données d'analyse multiparticules pour améliorer la localisation et la reconnaissance de texte, et (2) des données de réglage d'instructions pour améliorer les capacités d'ancrage et de référencement des MLLM en conversation et en inférence. À partir de ces données, nous construisons DOGR-Bench, un benchmark comprenant sept tâches d'ancrage et de référencement pour trois types de documents (graphiques, affiches et documents PDF). En exploitant les données générées, nous développons DOGR, un modèle de référence robuste qui excelle dans la localisation et la reconnaissance de texte et qui ancre et référence avec précision les informations textuelles importantes lors de la conversation et de l'inférence. DOGR améliore la compréhension des documents à un niveau plus fin et permet des paradigmes d'interaction flexibles.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau moteur de données et un benchmark qui contribuent à améliorer les capacités de compréhension visuelle des documents des modèles linguistiques multimodaux à grande échelle.
Nous présentons un nouveau modèle de base pour une compréhension fine des documents.
Nous présentons une technique de localisation et de reconnaissance de texte avec des capacités de mise à la terre et de référence améliorées.
Il présente un paradigme d’interaction utilisateur-document plus flexible et plus efficace.
Limitations:
Une évaluation plus approfondie des performances de généralisation du moteur DOGR et des modèles DOGR est nécessaire.
Une validation supplémentaire de l’évolutivité sur différents types de documents et complexités est nécessaire.
Les types de tâches actuellement inclus dans le référentiel peuvent être limités. Nous devons accroître l'exhaustivité du référentiel en y ajoutant une plus grande variété de tâches.
👍