Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Created by
  • Haebom

저자

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Liu, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

개요

본 논문은 시각 및 언어 정보의 통합을 강화하기 위해 새로운 데이터 형식인 PIN(Paired and INterleaved multimodal documents)을 제안합니다. PIN은 의미적으로 풍부한 Markdown 파일과 전체 문서 레이아웃을 포착하는 이미지를 결합하여 시각적 및 텍스트 정보의 심층 통합을 촉진합니다. 이 형식을 기반으로 영어와 중국어로 된 다양한 웹 및 과학 출처에서 수집한 대규모 오픈소스 데이터셋 PIN-200M (약 2억 개 문서)과 PIN-14M (약 1400만 개 문서)을 공개합니다. 데이터셋에는 상세한 통계 분석과 품질 신호가 포함되어 있어 연구자들이 특정 작업에 맞는 데이터를 쉽게 필터링하고 선택할 수 있도록 지원합니다. 이는 지식 집약적인 대규모 다중 모달 모델(LMM)의 사전 훈련 전략 및 개발에 대한 새로운 연구의 기반을 제공합니다.

시사점, 한계점

시사점:
새로운 다중 모달 데이터 형식인 PIN을 제안하여 시각 및 텍스트 정보의 심층 통합을 가능하게 함.
대규모 오픈소스 다중 모달 데이터셋 PIN-200M 및 PIN-14M을 제공하여 LMM 연구에 기여.
상세한 통계 분석 및 품질 신호 제공으로 데이터 활용성 증대.
향상된 LMM 사전 훈련 전략 및 지식 집약적 LMM 개발에 기여할 가능성 제시.
한계점:
데이터셋의 품질 및 다양성에 대한 추가적인 평가가 필요할 수 있음.
PIN 형식의 일반적인 채택 및 호환성에 대한 추가적인 연구가 필요할 수 있음.
특정 언어(영어 및 중국어)에 편향된 데이터셋 구성에 대한 고려가 필요할 수 있음.
👍