Cet article met en évidence le développement insuffisant des capacités d'ancrage et de référencement des modèles linguistiques multimodaux à grande échelle (MLLM) pour une compréhension fine et une interaction utilisateur flexible dans le domaine de la compréhension visuelle des documents. Pour y remédier, nous proposons le moteur de données DOcument Grounding and Referring (DOGR-Engine). DOGR-Engine génère deux types de données documentaires fines et de haute qualité : (1) des données d'analyse multiparticules pour améliorer la localisation et la reconnaissance de texte, et (2) des données de réglage d'instructions pour améliorer les capacités d'ancrage et de référencement des MLLM en conversation et en inférence. À partir de ces données, nous construisons DOGR-Bench, un benchmark comprenant sept tâches d'ancrage et de référencement pour trois types de documents (graphiques, affiches et documents PDF). En exploitant les données générées, nous développons DOGR, un modèle de référence robuste qui excelle dans la localisation et la reconnaissance de texte et qui ancre et référence avec précision les informations textuelles importantes lors de la conversation et de l'inférence. DOGR améliore la compréhension des documents à un niveau plus fin et permet des paradigmes d'interaction flexibles.