Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PIN: Bộ dữ liệu chuyên sâu về kiến ​​thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

Created by
  • Haebom

Tác giả

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuân, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Lin, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

Phác thảo

Để Giải quyết những hạn chế của các mô hình đa phương thức quy mô lớn (LMM), vốn gặp khó khăn trong việc tích hợp thông tin hình ảnh và lời nói, bài báo này đề xuất một định dạng dữ liệu mới, PIN (Paired and Interleaved Multimodal Documents). Định dạng PIN tạo điều kiện tích hợp sâu thông tin hình ảnh và văn bản bằng cách kết hợp các tệp Markdown giàu ngữ nghĩa với hình ảnh, giúp nắm bắt toàn bộ bố cục tài liệu. Dựa trên định dạng này, chúng tôi phát hành hai bộ dữ liệu nguồn mở quy mô lớn: PIN-200M ( 200 triệu tài liệu) và PIN-14M ( 14 triệu tài liệu), được thu thập từ nhiều nguồn web và khoa học khác nhau bằng tiếng Anh và tiếng Trung. Các bộ dữ liệu này cung cấp phân tích thống kê chi tiết và tín hiệu chất lượng, cho phép các nhà nghiên cứu dễ dàng lọc và lựa chọn dữ liệu cho các nhiệm vụ cụ thể.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất một định dạng dữ liệu đa phương thức mới, PIN, cho phép tích hợp sâu thông tin hình ảnh và văn bản.
ĐóNg góp vào nghiên cứu LMM bằng cách cung cấp các tập dữ liệu đa phương thức mã nguồn mở quy mô lớn PIN-200M và PIN-14M.
Tăng khả năng sử dụng tập dữ liệu của bạn bằng cách cung cấp phân tích thống kê chi tiết và tín hiệu chất lượng.
Cung cấp cơ sở cho nghiên cứu về phát triển các LMM nâng cao kiến ​​thức và các chiến lược đào tạo trước.
Limitations:
Có thể cần phải phân tích thêm về chất lượng và độ lệch của tập dữ liệu.
Cần phải nghiên cứu để hiểu được tính tổng quát của định dạng PIN và so sánh nó với các định dạng dữ liệu đa phương thức khác.
Mặc dù tập dữ liệu lớn, nhưng vẫn có khả năng một số miền hoặc loại dữ liệu nhất định có thể bị đại diện quá mức.
👍