Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

See then Tell: Enhancing Key Information Extraction with Vision Grounding

Created by
  • Haebom

作者

Shuhang Liu, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Qing Wang, Jianshu Zhang, Chenyu Liu

概要

この論文は、視覚的に豊富な文書(テキスト、複雑なレイアウト、画像統合)の理解能力の重要性を強調し、既存のKey Information Extraction(KIE)方法の制限(OCR依存による遅延、高い演算コスト、エラーの発生)を指摘しています。これを克服するために、OCRを経ずに画像から直接テキストを抽出する新しいエンドツーエンドモデルSTNetを提示します。 STNetは特別なトークンを使用して質問に関連する画像領域を観察し(see)、それに基づいて正確な答えと視覚的根拠を提供します(tell)。モデルのパフォーマンスを向上させるために、GPT-4を活用して、テキストベースの質問応答(QA)ペアと正確な視覚的根拠を含むTVG(TableQA with Vision Grounding)データセットを構築しました。実験の結果、CORD、SROIE、DocVQAなどのパブリックデータセットで最先端のパフォーマンスを達成しました。コードも公開される予定です。

Takeaways、Limitations

Takeaways:
OCR依存性を脱皮した新しいKIEアプローチの提示
画像ベースの質問回答における視覚的根拠の提示による精度の向上
GPT-4活用による高品質データセットの構築と開示
さまざまなパブリックデータセットでSOTAパフォーマンスを達成
コード開示による研究の再現性と拡張性の向上
Limitations:
TVGデータセットの規模と一般化性能の追加検証が必要
複雑なレイアウトやさまざまな画像タイプのモデルの一般化性能評価が必要
STNetの計算コストと効率に関するさらなる分析が必要
👍