この論文は、視覚文書の理解の分野での細かい理解と柔軟なユーザーインタラクションのために、マルチモーダル大規模言語モデル(MLLM)のgroundingおよびreferring機能の進歩がまだ不十分であることを指摘し、これを解決するためにDOcument Grounding and Referring data engine(DOGR-Engine)を提案します。 DOGR-Engineは、2つのタイプの高品質で細かい文書データ、つまり(1)テキストの位置を特定し認識を改善するためのマルチパーティクル分析データと、(2)会話と推論でMLLMのグランドおよびリファレンシング機能を有効にするためのインストゥルメントチューニングデータを生成します。これに基づいて、3つの文書タイプ(チャート、ポスター、PDF文書)にわたって7つのgroundingおよびreferring操作を含むベンチマークであるDOGR-Benchを構築し、生成されたデータを活用してテキスト位置の把握と認識に優れ、会話や推論中に重要なテキスト情報を正確にgroundingおよびreferringする強力な基準モデルであるDOGRを開発します。 DOGRは、文書の理解をより細かいレベルに発展させ、柔軟な相互作用パラダイムを可能にします。