Bài báo này nêu bật sự phát triển chưa đầy đủ về khả năng liên kết và tham chiếu của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) để hiểu chi tiết và tương tác linh hoạt của người dùng trong lĩnh vực hiểu tài liệu trực quan. Để giải quyết vấn đề này, chúng tôi đề xuất công cụ dữ liệu Liên kết và Tham chiếu Tài liệu (DOGR-Engine). DOGR-Engine tạo ra hai loại dữ liệu tài liệu chất lượng cao, chi tiết: (1) dữ liệu phân tích đa hạt để cải thiện khả năng định vị và nhận dạng văn bản, và (2) dữ liệu điều chỉnh lệnh để nâng cao khả năng liên kết và tham chiếu của MLLM trong hội thoại và suy luận. Dựa trên dữ liệu này, chúng tôi xây dựng DOGR-Bench, một chuẩn mực bao gồm bảy nhiệm vụ liên kết và tham chiếu trên ba loại tài liệu (biểu đồ, áp phích và tài liệu PDF). Tận dụng dữ liệu được tạo ra, chúng tôi phát triển DOGR, một mô hình cơ sở mạnh mẽ, vượt trội trong việc định vị và nhận dạng văn bản, đồng thời liên kết và tham chiếu chính xác đến thông tin văn bản quan trọng trong quá trình hội thoại và suy luận. DOGR thúc đẩy khả năng hiểu tài liệu lên mức chi tiết hơn và cho phép các mô hình tương tác linh hoạt.