See then Tell: Enhancing Key Information Extraction with Vision Grounding
Created by
Haebom
作者
Shuhang Liu, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Qing Wang, Jianshu Zhang, Chenyu Liu
概要
この論文は、視覚的に豊富な文書(テキスト、複雑なレイアウト、画像統合)の理解能力の重要性を強調し、既存のKey Information Extraction(KIE)方法の制限(OCR依存による遅延、高い演算コスト、エラーの発生)を指摘しています。これを克服するために、OCRを経ずに画像から直接テキストを抽出する新しいエンドツーエンドモデルSTNetを提示します。 STNetは特別なトークンを使用して質問に関連する画像領域を観察し(see)、それに基づいて正確な答えと視覚的根拠を提供します(tell)。モデルのパフォーマンスを向上させるために、GPT-4を活用して、テキストベースの質問応答(QA)ペアと正確な視覚的根拠を含むTVG(TableQA with Vision Grounding)データセットを構築しました。実験の結果、CORD、SROIE、DocVQAなどのパブリックデータセットで最先端のパフォーマンスを達成しました。コードも公開される予定です。