Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Why Stop at Words? Unveiling the Bigger Picture スルー Line-Level OCR

Created by
  • Haebom

作者

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

概要

本稿では、既存の文字単位OCRの限界を克服するために、単語単位OCRから行単位OCRへの移行を提案します。従来の文字単位OCRは、文字分割の過程でエラーが発生しやすく、言語モデルの活用に限られていました。単語単位OCRはこれらの問題を解決しましたが、単語分割の過程でエラーが発生する可能性があるという制限があります。そこで、本論文では単語単位 OCR の限界を超えた単位単位 OCR を提案し、単語検出誤差を回避し、より大きな文脈コンテキストを提供することで、言語モデルの利用率を高める。また、行単位OCR用の新しいデータセット(251個の英語ページイメージ)を公開します。実験の結果、提案された技術は、既存の単語単位OCRと比較して精度が5.4%向上し、効率が4倍向上したことを示しています。

Takeaways、Limitations

Takeaways :
単語単位OCRの限界を克服し,精度と効率を改善する行単位OCR技術の提案
行単位OCRのための新しいデータセットを公開。
改善された精度(5.4%)と効率(4倍の向上)を実験的に検証。
今後の大規模言語モデルの発展に伴うさらなる性能向上の可能性の提示
Limitations :
行単位のOCR用のパブリックデータセットが不足しているため、独自にデータセットを構築する必要がありました。
現在、英語のデータセットのみを提供しています。他の言語への拡張が必要です。
👍