Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FrameMind: razonamiento de vídeo intercalado con marcos mediante aprendizaje por refuerzo

Created by
  • Haebom

Autor

Haonan Ge, Yiwei Wang, Kai-Wei Chang, Hang Wu, Yujun Cai

FrameMind: Comprensión dinámica de vídeo con razonamiento entrelazado de cuadros

Describir

Este artículo presenta FrameMind, un marco que solicita dinámicamente información visual mediante aprendizaje por refuerzo para superar las limitaciones de los modelos de comprensión de video existentes que se basan en estrategias de muestreo de fotogramas fijos. FrameMind alterna entre la inferencia de texto y el reconocimiento visual activo mediante la Cadena de Pensamiento Intercalada de Fotogramas (FiCOT) y se entrena con los algoritmos de Muestreo de Fotogramas de Resolución Dinámica (DRFS) y DRFS-GRPO. Este método supera a los modelos existentes en pruebas de referencia como MLVU y VideoMME.

Takeaways, Limitations

Takeaways:
Mejorar la flexibilidad y la eficiencia de los modelos de comprensión de vídeo a través de solicitudes de información visual dinámicas.
Mejorando la interacción entre la inferencia de texto y el reconocimiento visual a través del método FiCOT.
Entrenamiento de políticas efectivas de muestreo dinámico utilizando DRFS y DRFS-GRPO.
Se obtuvo SOTA en los puntos de referencia MLVU y VideoMME.
Limitations:
Complejidad y coste computacional de DRFS y DRFS-GRPO.
Generalizabilidad de FiCOT y muestreo dinámico.
Es necesaria una evaluación del desempeño en otros tipos de tareas de comprensión de videos.
👍