Este artículo destaca el insuficiente desarrollo de las capacidades de fundamentación y referencia de los modelos lingüísticos multimodales a gran escala (MLLM) para lograr una comprensión detallada y una interacción flexible con el usuario en el ámbito de la comprensión visual de documentos. Para abordar este problema, proponemos el motor de datos de fundamentación y referencia de documentos (DOcument Grounding and Referring, DOGR-Engine). DOGR-Engine genera dos tipos de datos documentales de alta calidad y granularidad detallada: (1) datos de análisis multipartícula para mejorar la localización y el reconocimiento de texto, y (2) datos de ajuste de instrucciones para mejorar las capacidades de fundamentación y referencia de los MLLM en la conversación y la inferencia. Con base en estos datos, creamos DOGR-Bench, un banco de pruebas que abarca siete tareas de fundamentación y referencia en tres tipos de documentos (gráficos, pósteres y documentos PDF). Aprovechando los datos generados, desarrollamos DOGR, un modelo de referencia robusto que destaca en la localización y el reconocimiento de texto, fundamentando y referenciando con precisión información textual importante durante la conversación y la inferencia. DOGR lleva la comprensión de documentos a un nivel más detallado y posibilita paradigmas de interacción flexibles.