Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PIN: Un conjunto de datos intensivo en conocimiento para documentos multimodales emparejados e intercalados

Created by
  • Haebom

Autor

Junjie Wang, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Liu, Yujiu Yang, Ge Zhang, Ruibin Yuan, Bei Chen, Wenhu Chen

Describir

Este artículo propone un nuevo formato de datos, PIN (documentos multimodales emparejados e intercalados), para mejorar la integración de información visual y verbal. PIN facilita la integración profunda de información visual y textual al combinar archivos Markdown semánticamente ricos con imágenes que capturan la estructura completa del documento. Basándonos en este formato, publicamos dos conjuntos de datos de código abierto a gran escala, PIN-200M (aproximadamente 200 millones de documentos) y PIN-14M (aproximadamente 14 millones de documentos), recopilados de diversas fuentes web y científicas en inglés y chino. Estos conjuntos de datos incluyen análisis estadísticos detallados y señales de calidad, lo que permite a los investigadores filtrar y seleccionar fácilmente los datos adecuados para tareas específicas. Esto sienta las bases para nuevas investigaciones sobre estrategias de preentrenamiento y el desarrollo de modelos multimodales a gran escala (LMM) intensivos en conocimiento.

Takeaways, Limitations

Takeaways:
Proponemos un nuevo formato de datos multimodales, PIN, que permite una integración profunda de información visual y textual.
Contribuir a la investigación de LMM proporcionando conjuntos de datos multimodales de código abierto a gran escala PIN-200M y PIN-14M.
Aumente la usabilidad de los datos proporcionando análisis estadísticos detallados y señales de calidad.
Sugerir estrategias mejoradas de preentrenamiento LMM y su potencial para contribuir al desarrollo de LMM intensivos en conocimiento.
Limitations:
Tal vez sea necesario realizar una evaluación más profunda de la calidad y diversidad del conjunto de datos.
Tal vez se necesiten más investigaciones sobre la adopción general y la compatibilidad de los formatos PIN.
Quizás sea necesario considerar la construcción de conjuntos de datos orientados a idiomas específicos (inglés y chino).
👍