Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Created by
  • Haebom

作者

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Quns Bei Chen, Wenhu Chen

概要

本論文では、視覚情報と言語情報の統合に困難を伴う大規模マルチモーダルモデル(LMM)の制限を解決するために、新しいデータ形式であるPIN(Paired and INterleaved multimodal documents)を提案します。 PIN形式は、意味的に豊富なMarkdownファイルと文書全体のレイアウトをキャプチャする画像を組み合わせて、視覚情報とテキスト情報の詳細な統合を容易にします。これに基づいて、英語と中国語のさまざまなWebおよび科学的ソースから収集した2つの大規模なオープンソースデータセット、PIN-200M( 2億文書)とPIN-14M( 1400万文書)を公開します。データセットは詳細な統計分析と品質信号を提供し、研究者が特定のタスクに合わせてデータを簡単にフィルタリングして選択できるようにします。

Takeaways、Limitations

Takeaways:
新しいマルチモーダルデータフォーマットであるPINを提案し、視覚およびテキスト情報の詳細な統合を可能にします。
大規模なオープンソースマルチモーダルデータセットPIN-200MとPIN-14Mを提供することで、LMMの研究に貢献します。
詳細な統計分析と品質信号を提供することで、データセットの利用性を向上させます。
強化された知識集約型LMMの開発と事前訓練戦略の研究に基づいています。
Limitations:
データセットの品質と偏向性をさらに分析する必要があるかもしれません。
PIN形式の一般性と他のマルチモーダルデータ形式との比較研究が必要です。
データセットは大規模ですが、特定のドメインや種類のデータが過大になる可能性があります。
👍