[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DOGR: Towards Versatile Visual Document Grounding and Referring

Created by
  • Haebom

作者

Yinan Zhou, Yuxin Chen, Haokun Lin, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

概要

本論文は、視覚文書理解の分野で細分化されたデータセットと総合的なベンチマークの欠如のために未開発のマルチモーダル大規模言語モデル(MLLM)のグランドおよびリファレンシング機能を改善するために、DOcument Grounding and Referring data engine(DOGR-Engine)を提案する。 DOGR-Engineは、2つのタイプの高品質の細分化された文書データ、つまりテキストの位置を特定し認識するためのマルチパーティクル分析データと、MLLMの会話と推論で、groundingとreferring機能を有効にするためのinstruction-tuningデータを生成します。生成されたデータを使用して、3つの文書タイプ(チャート、ポスター、PDF文書)で7つのgroundingおよびreferring作業を扱うベンチマークであるDOGR-Benchを構築し、テキスト位置の把握と認識に優れ、会話や推論中に重要なテキスト情報を正確にgroundingおよびreferringする強力な基準モデルであるDOGRを開発する。その結果、より細かい文書の理解と柔軟な相互作用のパラダイムを可能にします。

Takeaways、Limitations

Takeaways:
ビジュアル文書を理解するための高品質で細かいデータセットであるDOGR-Benchを提供します。
MLLMのgroundingとreferring機能の向上に貢献するDOGR-Engineの開発
テキスト位置の把握と認識、Groundingとreferringの両方の機能で優れたパフォーマンスを示すDOGRモデルを提示します。
細分化された文書の理解と柔軟な相互作用のパラダイムの可能性を提示します。
Limitations:
DOGR-EngineとDOGRモデルの一般化性能に関する追加研究の必要性
DOGR-Benchに含まれる文書の種類と操作の多様性の拡張が必要です。
実際のアプリケーションにおけるDOGRモデルの性能評価が必要
👍