En este artículo, proponemos un motor de datos de base y referencia de documentos (DOGR-Engine) para mejorar las capacidades de base y referencia de los modelos lingüísticos multimodales a gran escala (MLLM), que aún están poco desarrollados debido a la falta de conjuntos de datos de granularidad fina y puntos de referencia exhaustivos en el campo de la comprensión visual de documentos. DOGR-Engine genera dos tipos de datos documentales de granularidad fina de alta calidad: datos de análisis multigrano para mejorar la localización y el reconocimiento de texto, y datos de ajuste de instrucciones para activar las capacidades de base y referencia de los MLLM en conversaciones e inferencias. Con los datos generados, construimos DOGR-Bench, un punto de referencia que abarca siete tareas de base y referencia en tres tipos de documentos (gráficos, pósteres y documentos PDF), y desarrollamos DOGR, un potente modelo de referencia que destaca en la localización y el reconocimiento de texto, y que fundamenta y referencia con precisión información textual importante durante conversaciones e inferencias. Como resultado, permite una comprensión de documentos más detallada y paradigmas de interacción flexibles.