Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia la comprensión de los movimientos de la cámara en cualquier vídeo

Created by
  • Haebom

Autor

Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan

Describir

CameraBench es un conjunto de datos y un punto de referencia a gran escala diseñado para evaluar y mejorar la comprensión del movimiento de la cámara. Consta de aproximadamente 3000 vídeos de internet diversos, anotados por expertos mediante un riguroso proceso de control de calidad de varios pasos. En colaboración con cinematógrafos, proponemos una taxonomía de primitivas de movimiento de cámara. Por ejemplo, algunas acciones, como el seguimiento, requieren comprender el contenido de la escena, como los sujetos en movimiento. Estudios a gran escala realizados con personas cuantifican el rendimiento de la anotación humana, lo que demuestra que la experiencia en el dominio y el entrenamiento basado en tutoriales pueden mejorar significativamente la precisión. Por ejemplo, los usuarios principiantes pueden confundir el zoom (un cambio de parámetro intrínseco) con el avance (un cambio de parámetro extrínseco), pero el entrenamiento les permite distinguir entre ambos. Utilizando CameraBench para evaluar la Estructura a partir del Movimiento (SfM) y los Modelos de Lenguaje de Vídeo (VLM), observamos que los modelos SfM tienen dificultades para capturar primitivas semánticas que dependen del contenido de la escena, mientras que los VLM tienen dificultades para capturar primitivas geométricas que requieren una estimación precisa de la trayectoria. A continuación, perfeccionamos el VLM generativo en CameraBench para lograr lo mejor de ambos mundos, demostrando aplicaciones como subtítulos con aumento de movimiento, respuestas a preguntas en video y búsqueda de video a texto. Con esta taxonomía, puntos de referencia y tutoriales, anticipamos los esfuerzos futuros hacia el objetivo final de comprender el movimiento de la cámara en todos los videos.

Takeaways, Limitations

Takeaways:
Se presenta CameraBench, un conjunto de datos a gran escala y una referencia para comprender el movimiento de la cámara.
Proporciona una taxonomía de los fundamentos del movimiento de la cámara desarrollada en colaboración con directores de fotografía.
Revelar __T17786_____ de SfM y VLM y mejorarlo mediante el uso de VLM generativo
Ofrece una variedad de aplicaciones, que incluyen subtítulos aumentados por movimiento, respuestas a preguntas en video y búsqueda de video a texto.
Enfatizar la importancia de la experiencia en el dominio y la capacitación basada en tutoriales.
Limitations:
El tamaño del conjunto de datos puede ser mayor
Necesidad de mejorar la exhaustividad en los diferentes tipos de movimientos de cámara
Se necesita más investigación sobre el rendimiento de generalización de los modelos entrenados en CameraBench.
Se necesita más investigación sobre un sistema de clasificación más granular para movimientos específicos de la cámara.
👍