Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing

Created by
  • Haebom

作者

Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Zuming Huang, Jun Huang, Haozhe Wang, Yanjie Liang, Ling Chen, Wei Chu, Yuan Qi

レイアウトRL:強化学習ベースの文書解析フレームワーク

概要

本論文では、スキャンされた文書を機械で読み取り可能な形式に自動解析する際に、既存のパイプラインのエラー伝播およびさまざまなレイアウトに対する適応力不足の問題を解決するために、エンドツーエンド強化学習フレームワークであるLayoutRLを提案します。 layoutRLは、正規化された編集距離、段落数の精度、読み取り順序の保存に関する複合補償を最適化して、レイアウト認識モデルを学習します。さらに、55,000の高品質合成スキャン文書データと専門家が選択した実際の文書を組み合わせたInfinity-Doc-55Kデータセットを活用して、ビジョン言語モデルベースのパーサーであるInfinity-Parserを実装します。 OCR、表および式の抽出、読取り順序の検出などの英語および中国語のベンチマークでは、Infinity-Parserは精度と構造的忠実度の観点から新しいSOTAを達成しました。

Takeaways、Limitations

Takeaways:
エンドツーエンド強化学習フレームワークによる文書解析のパフォーマンスの向上。
さまざまなレイアウトに対する適応性の向上
新しいデータセット(Infinity-Doc-55K)によるパフォーマンスの向上。
英語と中国語のベンチマークでSOTAを達成。
コードとデータセットの開示による文書理解の分野の発展を加速します。
Limitations:
論文の内容だけでは具体的な技術的限界は明記されていない。
今後の研究を通じて明らかになる可能性の存在。
👍