Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DOGR: Towards Versatile Visual Document Grounding and Referring

Created by
  • Haebom

作者

Yinan Zhou, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

概要

この論文は、視覚文書の理解の分野での細かい理解と柔軟なユーザーインタラクションのために、マルチモーダル大規模言語モデル(MLLM)のgroundingおよびreferring機能の進歩がまだ不十分であることを指摘し、これを解決するためにDOcument Grounding and Referring data engine(DOGR-Engine)を提案します。 DOGR-Engineは、2つのタイプの高品質で細かい文書データ、つまり(1)テキストの位置を特定し認識を改善するためのマルチパーティクル分析データと、(2)会話と推論でMLLMのグランドおよびリファレンシング機能を有効にするためのインストゥルメントチューニングデータを生成します。これに基づいて、3つの文書タイプ(チャート、ポスター、PDF文書)にわたって7つのgroundingおよびreferring操作を含むベンチマークであるDOGR-Benchを構築し、生成されたデータを活用してテキスト位置の把握と認識に優れ、会話や推論中に重要なテキスト情報を正確にgroundingおよびreferringする強力な基準モデルであるDOGRを開発します。 DOGRは、文書の理解をより細かいレベルに発展させ、柔軟な相互作用パラダイムを可能にします。

Takeaways、Limitations

Takeaways:
マルチモーダル大規模言語モデルの視覚文書理解能力の向上に貢献する新しいデータエンジンとベンチマークを提示します。
細かいレベルの文書を理解するための新しい基準モデルを提示します。
Groundingとreferring機能を向上させたテキスト位置の把握と認識技術を提示します。
より柔軟で効率的なユーザー - 文書相互作用パラダイムを提示します。
Limitations:
DOGR-EngineおよびDOGRモデルの一般化性能の追加評価が必要です。
さまざまな文書タイプと複雑さのスケーラビリティをさらに検証する必要があります。
現在、ベンチマークに含まれるジョブの種類が制限される可能性があります。さらにさまざまなタスクを追加して、ベンチマークの包括性を高める必要があります。
👍