Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Created by
  • Haebom

Autor

Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kr ahenb uhl, Piotr Doll ar, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

Describir

Este artículo presenta un estudio sobre la construcción de un Modelo de Lenguaje Perceptual (PLM) dentro de un marco completamente abierto y reproducible para el estudio de modelos de visión-lenguaje esenciales para la investigación en visión artificial. Sin destilar datos de modelos propietarios, analizamos canales de entrenamiento estándar y aprovechamos datos sintéticos a gran escala para identificar una brecha de datos crítica, especialmente en la comprensión detallada de videos. Para abordar esta brecha, publicamos 2,8 millones de sofisticados pares de preguntas y respuestas de video e instancias de subtítulos de video con etiquetas humanas basadas en el espacio-tiempo. También presentamos un conjunto de herramientas de evaluación llamado PLM-VideoBench para evaluar tareas complejas de comprensión de video que se centran en la capacidad de inferir el "qué", "dónde", "cuándo" y "cómo" de un video. Proporcionamos datos, recetas de entrenamiento, código y modelos para garantizar la reproducibilidad total de la tarea.

Takeaways, Limitations

Takeaways:
Presentar un marco de investigación de modelos de visión-lenguaje abierto y reproducible que no dependa de modelos propietarios
Se publicó un conjunto de datos a gran escala etiquetados por humanos (2,8 millones de pares de preguntas y respuestas en video y subtítulos)
Presentamos PLM-VideoBench, una nueva herramienta de evaluación para la comprensión del vídeo
Analizar las lagunas de datos y sugerir soluciones mediante la utilización de datos sintéticos
Limitations:
Debido a las limitaciones de los datos sintéticos, es posible que no reflejen completamente la complejidad de los datos reales.
PLM-VideoBench puede tener un alcance de evaluación limitado
Incluso si es un modelo abierto, puede haber investigadores que tengan dificultades para asegurar la reproducibilidad debido a la complejidad del modelo.
👍