Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs

Created by
  • Haebom

作者

Gaye Colakoglu, G urkan Solmaz, Jonathan F urst

概要

本論文は、大規模言語モデル(LLM)を用いたレイアウト豊富な文書における情報抽出(IE)設計空間を定義し探索する。 LLMを使用したレイアウト認識IEの3つの重要な課題は、データ構造化、モデルエンゲージメント、出力改善であり、入力表現、チャンク化、プロンプト、LLM選択、マルチモーダルモデルなどの下位問題と方法を調査します。新しいオープンソースのレイアウト認識IEテストのコレクションであるLayIE-LLMを通じて、さまざまな設計選択の効果を既存の微調整されたIEモデルと比較ベンチマークする。 2つのIEデータセットの結果は、LLMが競争力のあるパフォーマンスを達成するためにIEパイプラインを調整する必要があることを示しています。 LayIE-LLMで見つけた最適化された構成は、同じLLMを使用する一般的な基準構成よりも13.3〜37.5 F1ポイント高い性能を達成します。本論文では最適結果に近い一因子一時(OFAT)法を開発し,この方法は必要な計算量の一部(2.8%)だけで最良完全要因探索より0.8 1.8ポイントだけ低い性能を示す。全体的に、適切に構成された汎用LLMは、特殊化されたモデルの性能と一致し、費用対効果が高く、微調整を必要としない代替案を提供することを示しています。テストコレクションはhttps://github.com/gayecolakoglu/LayIE-LLMで利用可能です。

Takeaways、Limitations

Takeaways:
レイアウト豊富な文書から情報を抽出するための効率的な方法論を提示します。LLMを活用して、従来の微調整モデルと同様またはより良いパフォーマンスを達成できます。
費用対効果の高い代替手段の提供:微調整なしでユニバーサルLLMを使用して情報を抽出できます。
オープンソーステストコレクションLayIE-LLM公開:さまざまなLLMと方法論の性能比較と研究に貢献。
効果的なパラメータ探索方法(OFAT)提示:計算量を減らしながら最適な性能に近い。
Limitations:
使用されるデータセットの制限:2つのデータセットのみを使用して一般化可能性の検証が不十分です。
OFAT法の最適性を保証X:全体的な要因探索と比較してわずかな性能低下が存在する。
LLMのパフォーマンスへの依存性:LLMのパフォーマンスの向上によって結果が変わる可能性があります。
👍