Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Created by
  • Haebom

저자

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Lin, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

개요

본 논문은 시각 및 언어 정보의 통합에 어려움을 겪는 대규모 다중 모달 모델(LMMs)의 한계를 해결하기 위해 새로운 데이터 형식인 PIN(Paired and INterleaved multimodal documents)을 제안합니다. PIN 형식은 의미적으로 풍부한 Markdown 파일과 전체 문서 레이아웃을 포착하는 이미지를 결합하여 시각 및 텍스트 정보의 심층 통합을 촉진합니다. 이를 기반으로 영어 및 중국어로 된 다양한 웹 및 과학적 소스에서 수집한 두 개의 대규모 오픈소스 데이터셋인 PIN-200M (2억 개 문서)과 PIN-14M (1400만 개 문서)을 공개합니다. 데이터셋은 상세한 통계 분석 및 품질 신호를 제공하여 연구자들이 특정 작업에 맞게 데이터를 쉽게 필터링하고 선택할 수 있도록 지원합니다.

시사점, 한계점

시사점:
새로운 다중 모달 데이터 형식인 PIN을 제안하여 시각 및 텍스트 정보의 심층 통합을 가능하게 함.
대규모 오픈소스 다중 모달 데이터셋 PIN-200M과 PIN-14M을 제공하여 LMM 연구에 기여.
상세한 통계 분석 및 품질 신호 제공을 통해 데이터셋의 활용성을 높임.
향상된 지식 집약적 LMM 개발 및 사전 훈련 전략 연구에 기반을 제공.
한계점:
데이터셋의 품질 및 편향성에 대한 추가적인 분석이 필요할 수 있음.
PIN 형식의 일반성 및 다른 다중 모달 데이터 형식과의 비교 연구가 필요함.
데이터셋의 규모가 크지만, 특정 도메인이나 유형의 데이터가 과대표될 가능성이 있음.
👍