Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

KITAB-Bench : un benchmark multi-domaines complet pour l'OCR arabe et la compréhension de documents

Created by
  • Haebom

Auteur

Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Shazan Ahmad, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

Contour

Cet article présente KITAB-Bench, un benchmark complet pour l'amélioration des performances de la reconnaissance optique de caractères (OCR) arabe. KITAB-Bench contient 8 809 échantillons répartis dans 9 domaines principaux et 36 sous-domaines, et couvre divers types de documents, notamment le texte manuscrit, les tableaux structurés et 21 types de graphiques. L'article montre que les modèles Vision-Language de pointe (par exemple, GPT-4o, Gemini, Qwen, etc.) surpassent les approches OCR existantes (par exemple, EasyOCR, PaddleOCR, Surya, etc.) jusqu'à 60 % en termes de taux d'erreur de caractères (CER). Cependant, il souligne que certaines tâches, comme la conversion de PDF en Markdown (par exemple, 65 % de précision pour Gemini-2.0-Flash), présentent encore des limites importantes et met en évidence des problèmes tels que la complexité des polices, les erreurs de reconnaissance de chiffres, les variations de longueur des mots et la détection de la structure des tableaux. KITAB-Bench fournit un cadre d'évaluation rigoureux pour améliorer les méthodes d'analyse de documents arabes et combler l'écart de performance avec les techniques OCR anglaises.

Takeaways, Limitations

Takeaways:
Un benchmark complet KITAB-Bench est présenté pour évaluer les performances de l'OCR arabe.
Il a été démontré expérimentalement que le modèle Vision-Langage surpasse les modèles OCR existants.
Fournir des critères d’évaluation rigoureux pour l’avancement de la technologie OCR arabe.
Proposer des pistes de recherche dans le domaine du traitement des documents arabes.
Limitations:
La conversion du PDF au Markdown présente toujours une faible précision (65 %).
L'OCR arabe continue de faire face à des défis, notamment des polices complexes, des erreurs de reconnaissance de chiffres, des variations de longueur de mots et la détection de la structure des tableaux.
La nécessité d’élargir davantage le nombre et la diversité des échantillons dans KITAB-Bench.
👍