Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

KITAB-Bench: Un punto de referencia multidominio integral para el reconocimiento óptico de caracteres (OCR) y la comprensión de documentos en árabe

Created by
  • Haebom

Autor

Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Shazan Ahmad, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

Describir

Este artículo presenta KITAB-Bench, un banco de pruebas integral para mejorar el rendimiento del reconocimiento óptico de caracteres (OCR) en árabe. KITAB-Bench contiene 8809 muestras en 9 dominios principales y 36 subdominios, y abarca diversos tipos de documentos, como texto manuscrito, tablas estructuradas y 21 tipos de gráficos. El artículo demuestra que los modelos de visión y lenguaje de vanguardia (p. ej., GPT-4o, Gemini, Qwen, etc.) superan a los enfoques de OCR existentes (p. ej., EasyOCR, PaddleOCR, Surya, etc.) en un promedio del 60 % en términos de tasa de error de caracteres (CER). Sin embargo, destaca que aún existen limitaciones significativas en ciertas tareas, como la conversión de PDF a Markdown (p. ej., 65 % de precisión para Gemini-2.0-Flash), y señala problemas como fuentes complejas, errores de reconocimiento de dígitos, variaciones en la longitud de las palabras y detección de la estructura de las tablas. KITAB-Bench proporciona un marco de evaluación riguroso para mejorar los métodos de análisis de documentos en árabe y reducir la brecha de rendimiento con las técnicas de OCR en inglés.

Takeaways, Limitations

Takeaways:
Se presenta un completo benchmark KITAB-Bench para evaluar el rendimiento del OCR en árabe.
Se demostró experimentalmente que el modelo Visión-Lenguaje supera a los modelos OCR existentes.
Proporcionar criterios de evaluación rigurosos para el avance de la tecnología OCR árabe.
Sugerir direcciones de investigación en el campo del procesamiento de documentos árabes.
Limitations:
La conversión de PDF a Markdown todavía muestra una precisión baja (65%).
El OCR en árabe continúa enfrentando desafíos, incluidas fuentes complejas, errores de reconocimiento de dígitos, variaciones en la longitud de las palabras y detección de estructuras de tablas.
La necesidad de ampliar aún más el número y la diversidad de muestras en KITAB-Bench.
👍