Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

Created by
  • Haebom

作者

Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Shazan Ahmad, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

概要

本論文では、アラビア語OCR(光学文字認識)のパフォーマンスを向上させるための包括的なベンチマークであるKITAB-Benchを紹介します。 KITAB-Benchには、9つの主要ドメインと36のサブドメインにわたって8,809のサンプルが含まれています。論文は、最新のVision-Languageモデル(GPT-4o、Gemini、Qwenなど)が、従来のOCRアプローチ(EasyOCR、PaddleOCR、Suryaなど)よりも文字エラー率(CER)の観点から平均60%向上したパフォーマンスを示しています。しかし、PDFからMarkdownへの変換などの特定のタスクでは、依然としてかなりの制限(例:Gemini-2.0-Flashの65%精度)が存在することを強調し、複雑なフォント、数値認識エラー、単語長の変化、表構造の検出などの問題を指摘しています。 KITAB-Benchは、アラビア語文書の分析方法を改善し、英語のOCR技術とのパフォーマンスのギャップを解消するための厳格な評価フレームワークを提供します。

Takeaways、Limitations

Takeaways:
アラビア語のOCR性能評価のための包括的なベンチマークKITAB-Benchを提示します。
Vision-Languageモデルが従来のOCRモデルより優れた性能を示すことを実験的に証明。
アラビア語のOCR技術の開発のための厳格な評価基準を提示します。
アラビア語文書処理の分野における研究方向の提示
Limitations:
PDFからMarkdownへの変換作業は依然として低い精度(65%)を示しています。
複雑なフォント、数値認識エラー、単語の長さの変化、表構造の検出など、アラビア語のOCRの難題の持続。
KITAB-Benchのサンプル数と多様性をさらに拡大する必要性。
👍