Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

Created by
  • Haebom

Auteur

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Liu, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

Contour

Cet article propose un nouveau format de données, PIN (Paired and Interleaved multimodal documents), pour améliorer l'intégration des informations visuelles et verbales. PIN facilite l'intégration approfondie des informations visuelles et textuelles en combinant des fichiers Markdown sémantiquement riches avec des images capturant l'intégralité de la mise en page du document. Sur la base de ce format, nous publions deux grands ensembles de données open source, PIN-200M (environ 200 millions de documents) et PIN-14M (environ 14 millions de documents), collectés auprès de diverses sources web et scientifiques en anglais et en chinois. Ces ensembles de données incluent des analyses statistiques détaillées et des signaux de qualité, permettant aux chercheurs de filtrer et de sélectionner facilement les données adaptées à des tâches spécifiques. Cela constitue une base pour de nouvelles recherches sur les stratégies de pré-apprentissage et le développement de modèles multimodaux à grande échelle (LMM) à forte intensité de connaissances.

Takeaways, Limitations

Takeaways:
Nous proposons un nouveau format de données multimodal, PIN, qui permet une intégration profonde des informations visuelles et textuelles.
Contribuer à la recherche LMM en fournissant des ensembles de données multimodales open source à grande échelle PIN-200M et PIN-14M.
Augmentez la convivialité des données en fournissant des analyses statistiques détaillées et des signaux de qualité.
Proposer des stratégies améliorées de pré-formation LMM et leur potentiel à contribuer au développement de LMM à forte intensité de connaissances.
Limitations:
Une évaluation plus approfondie de la qualité et de la diversité de l’ensemble de données peut être nécessaire.
Des recherches supplémentaires pourraient être nécessaires sur l’adoption générale et la compatibilité des formats PIN.
Il faudra peut-être envisager de construire des ensembles de données biaisés en faveur de langues spécifiques (anglais et chinois).
👍