本論文は、視覚文書理解の分野で細分化されたデータセットと総合的なベンチマークの欠如のために未開発のマルチモーダル大規模言語モデル(MLLM)のグランドおよびリファレンシング機能を改善するために、DOcument Grounding and Referring data engine(DOGR-Engine)を提案する。 DOGR-Engineは、2つのタイプの高品質の細分化された文書データ、つまりテキストの位置を特定し認識するためのマルチパーティクル分析データと、MLLMの会話と推論で、groundingとreferring機能を有効にするためのinstruction-tuningデータを生成します。生成されたデータを使用して、3つの文書タイプ(チャート、ポスター、PDF文書)で7つのgroundingおよびreferring作業を扱うベンチマークであるDOGR-Benchを構築し、テキスト位置の把握と認識に優れ、会話や推論中に重要なテキスト情報を正確にgroundingおよびreferringする強力な基準モデルであるDOGRを開発する。その結果、より細かい文書の理解と柔軟な相互作用のパラダイムを可能にします。