Cet article présente KITAB-Bench, un benchmark complet pour l'amélioration des performances de la reconnaissance optique de caractères (OCR) arabe. KITAB-Bench contient 8 809 échantillons répartis dans 9 domaines principaux et 36 sous-domaines, et couvre divers types de documents, notamment le texte manuscrit, les tableaux structurés et 21 types de graphiques. L'article montre que les modèles Vision-Language de pointe (par exemple, GPT-4o, Gemini, Qwen, etc.) surpassent les approches OCR existantes (par exemple, EasyOCR, PaddleOCR, Surya, etc.) jusqu'à 60 % en termes de taux d'erreur de caractères (CER). Cependant, il souligne que certaines tâches, comme la conversion de PDF en Markdown (par exemple, 65 % de précision pour Gemini-2.0-Flash), présentent encore des limites importantes et met en évidence des problèmes tels que la complexité des polices, les erreurs de reconnaissance de chiffres, les variations de longueur des mots et la détection de la structure des tableaux. KITAB-Bench fournit un cadre d'évaluation rigoureux pour améliorer les méthodes d'analyse de documents arabes et combler l'écart de performance avec les techniques OCR anglaises.