Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark

작성자
  • Haebom

作者

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur

概要

この論文は、多様なモダリティの複雑なデータ入力を分析および理解する能力を大幅に向上させたマルチモーダル大規模言語モデル(LLM)の進歩にもかかわらず、適切なベンチマークの欠如による長い文書処理が未開拓の分野であることを指摘しています。これを解決するために、この論文は、ビジュアル的に複雑な長い文書でVision Language Models(VLM)のパフォーマンスを評価するように設計された包括的なベンチマークであるDocument Haystackを提供します。 Document Haystackは、5ページから200ページまでの文書を特徴としており、VLMの検索能力に挑戦するために、純粋なテキストまたはマルチモーダルテキスト+画像「針」を文書内のさまざまな深さに戦略的に挿入します。 400の文書バリアントと合計8,250の質問で構成され、客観的で自動化された評価フレームワークをサポートします。この論文は、Document Haystackデータセットの構成と特徴を詳細に説明し、主要なVLMの結果を提示し、この分野の潜在的な研究方向を議論します。

Takeaways、Limitations

Takeaways:
長い視覚的に複雑な文書のVLMパフォーマンス評価のための新しいベンチマークであるDocument Haystackの提示。
様々な長さと複雑さの文書を含むVLMの検索能力を総合的に評価可能。
客観的かつ自動化された評価フレームワークを提供することで、研究の再現性と比較可能性を向上させます。
今後のVLM研究の方向性の提示と発展に貢献
Limitations:
Document Haystackデータセットの規模が今後さらに拡大する必要性。
様々な種類の視覚情報と文書構造の一般化性能評価が必要
実際の応用シナリオとの関連性と適用性に関するさらなる研究の必要性
👍