Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DOGR: Hướng tới việc xây dựng nền tảng và tham chiếu tài liệu trực quan đa năng

Created by
  • Haebom

Tác giả

Yinan Chu, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

Phác thảo

Bài báo này nêu bật sự phát triển chưa đầy đủ về khả năng liên kết và tham chiếu của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) để hiểu chi tiết và tương tác linh hoạt của người dùng trong lĩnh vực hiểu tài liệu trực quan. Để giải quyết vấn đề này, chúng tôi đề xuất công cụ dữ liệu Liên kết và Tham chiếu Tài liệu (DOGR-Engine). DOGR-Engine tạo ra hai loại dữ liệu tài liệu chất lượng cao, chi tiết: (1) dữ liệu phân tích đa hạt để cải thiện khả năng định vị và nhận dạng văn bản, và (2) dữ liệu điều chỉnh lệnh để nâng cao khả năng liên kết và tham chiếu của MLLM trong hội thoại và suy luận. Dựa trên dữ liệu này, chúng tôi xây dựng DOGR-Bench, một chuẩn mực bao gồm bảy nhiệm vụ liên kết và tham chiếu trên ba loại tài liệu (biểu đồ, áp phích và tài liệu PDF). Tận dụng dữ liệu được tạo ra, chúng tôi phát triển DOGR, một mô hình cơ sở mạnh mẽ, vượt trội trong việc định vị và nhận dạng văn bản, đồng thời liên kết và tham chiếu chính xác đến thông tin văn bản quan trọng trong quá trình hội thoại và suy luận. DOGR thúc đẩy khả năng hiểu tài liệu lên mức chi tiết hơn và cho phép các mô hình tương tác linh hoạt.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một công cụ dữ liệu và chuẩn mực mới góp phần cải thiện khả năng hiểu tài liệu trực quan của các mô hình ngôn ngữ quy mô lớn đa phương thức.
Chúng tôi trình bày một mô hình cơ sở mới để hiểu tài liệu một cách chi tiết.
Chúng tôi trình bày một kỹ thuật định vị và nhận dạng văn bản với khả năng tham chiếu và liên kết được cải thiện.
Nó đưa ra mô hình tương tác giữa người dùng và tài liệu linh hoạt và hiệu quả hơn.
Limitations:
Cần đánh giá thêm về hiệu suất tổng quát của các mô hình DOGR-Engine và DOGR.
Cần phải xác thực thêm khả năng mở rộng trên nhiều loại tài liệu và mức độ phức tạp khác nhau.
Các loại nhiệm vụ hiện có trong chuẩn mực có thể bị hạn chế. Chúng tôi cần tăng tính toàn diện của chuẩn mực bằng cách bổ sung thêm nhiều loại nhiệm vụ hơn.
👍