Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Descubrimiento profundo de video: búsqueda agéntica con uso de herramientas para la comprensión de videos de larga duración

Created by
  • Haebom

Autor

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

Describir

En este artículo, proponemos una estrategia de búsqueda basada en agentes para el agente Deep Video Discovery (DVD) que resuelve el problema de la comprensión de video a largo plazo, cuyas preguntas son difíciles de responder en contextos de video a largo plazo con alta complejidad temporal y espacial. A diferencia del flujo de trabajo fijo de los agentes de video existentes, el agente DVD prioriza las características autónomas y utiliza herramientas de búsqueda en bases de datos de video de diversos tamaños. Emplea la capacidad de razonamiento avanzado de LLM para planificar el estado de observación actual, seleccionar herramientas estratégicamente, establecer parámetros apropiados para las acciones y mejorar iterativamente las inferencias internas a la luz de la información recopilada. Mediante evaluaciones exhaustivas en varios puntos de referencia de comprensión de video a largo plazo, demostramos la superioridad del diseño del sistema y, en particular, logramos resultados de vanguardia (SOTA) en el conjunto de datos LVBench, superando significativamente los estudios existentes. Además, proporcionamos información sobre el desarrollo de agentes inteligentes para la comprensión de video a largo plazo mediante estudios de ablación y análisis de herramientas, y el código es de código abierto ( https://github.com/microsoft/DeepVideoDiscovery ).

Takeaways, Limitations

Takeaways:
Un nuevo enfoque basado en agentes para la comprensión de vídeos a largo plazo
Presentación de estrategias efectivas de búsqueda y comprensión de videos utilizando las capacidades de inferencia de LLM
Lograr el rendimiento SOTA en el conjunto de datos LVBench
Diseño que enfatiza el comportamiento autónomo del agente
Proporcionar reproducibilidad y potencial para investigaciones de seguimiento a través de código abierto
Limitations:
En este artículo no se hace referencia explícita a Limitations. Se requiere un análisis más profundo para identificar Limitations específicos.
Posiblemente limitado a la evaluación del rendimiento en un conjunto de datos específico. Es necesario verificar el rendimiento de la generalización en diversos conjuntos de datos y tareas.
Falta de análisis de la complejidad y el coste computacional del agente. Se requiere mayor investigación sobre su aplicabilidad práctica.
👍