Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PIN: Bộ dữ liệu chuyên sâu về kiến ​​thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

Created by
  • Haebom

Tác giả

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuân, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Liu, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

Phác thảo

Bài báo này đề xuất một định dạng dữ liệu mới, PIN (Paired and Interleaved multimodal documents), nhằm tăng cường tích hợp thông tin hình ảnh và lời nói. PIN tạo điều kiện tích hợp sâu thông tin hình ảnh và văn bản bằng cách kết hợp các tệp Markdown giàu ngữ nghĩa với hình ảnh chụp toàn bộ bố cục tài liệu. Dựa trên định dạng này, chúng tôi phát hành hai bộ dữ liệu nguồn mở quy mô lớn, PIN-200M (khoảng 200 triệu tài liệu) và PIN-14M (khoảng 14 triệu tài liệu), được thu thập từ nhiều nguồn web và khoa học khác nhau bằng tiếng Anh và tiếng Trung. Các bộ dữ liệu này bao gồm phân tích thống kê chi tiết và tín hiệu chất lượng, cho phép các nhà nghiên cứu dễ dàng lọc và lựa chọn dữ liệu phù hợp cho các nhiệm vụ cụ thể. Điều này tạo nền tảng cho nghiên cứu mới về các chiến lược tiền huấn luyện và phát triển các mô hình đa phương thức quy mô lớn (LMM) chuyên sâu về kiến ​​thức.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất một định dạng dữ liệu đa phương thức mới, PIN, cho phép tích hợp sâu thông tin hình ảnh và văn bản.
ĐóNg góp vào nghiên cứu LMM bằng cách cung cấp các tập dữ liệu đa phương thức mã nguồn mở quy mô lớn PIN-200M và PIN-14M.
Tăng khả năng sử dụng dữ liệu bằng cách cung cấp phân tích thống kê chi tiết và tín hiệu chất lượng.
Đề Xuất các chiến lược đào tạo trước LMM được cải tiến và tiềm năng của chúng trong việc đóng góp vào sự phát triển của LMM chuyên sâu về kiến ​​thức.
Limitations:
Có thể cần phải đánh giá thêm về chất lượng và tính đa dạng của tập dữ liệu.
Có thể cần nghiên cứu thêm về việc áp dụng chung và khả năng tương thích của định dạng PIN.
Có thể cần cân nhắc đến việc xây dựng các tập dữ liệu thiên về các ngôn ngữ cụ thể (tiếng Anh và tiếng Trung).
👍