Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MovieCORE: Razonamiento cognitivo en el cine

Created by
  • Haebom

Autor

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

Describir

MovieCORE es un novedoso conjunto de datos de preguntas y respuestas en video (VQA) diseñado para explorar una comprensión cognitiva más profunda del contenido cinematográfico. A diferencia de los conjuntos de datos existentes que se centran en la comprensión superficial, MovieCORE se centra en preguntas que estimulan el pensamiento del Sistema 2, sin dejar de ser específico del material de video. Presentamos un innovador enfoque de lluvia de ideas agéntica que aprovecha múltiples modelos de lenguaje a gran escala (LLM) como agentes de pensamiento para generar y refinar pares pregunta-respuesta de alta calidad. Para evaluar la calidad del conjunto de datos, desarrollamos un conjunto de pruebas cognitivas que evalúan la profundidad, el potencial de reflexión y la complejidad sintáctica. También proponemos un marco de evaluación integral para evaluar el rendimiento del modelo VQA en tareas cognitivas más profundas. Para abordar las limitaciones de los modelos de video-lenguaje (VLM) existentes, presentamos Agentic Choice Enhancement (ACE), un módulo de mejora agéntica que mejora la capacidad de inferencia del modelo hasta en un 25 % tras el entrenamiento. Esta investigación contribuye al avance de la comprensión cinematográfica en sistemas de IA y proporciona información valiosa sobre las capacidades y limitaciones de los modelos VQA actuales al enfrentarse a preguntas más complejas y con mayor complejidad sobre el contenido cinematográfico. La página del proyecto, el conjunto de datos y el código se pueden encontrar en https://joslefaure.github.io/assets/html/moviecore.html .

Takeaways, Limitations

Takeaways:
Presentamos MovieCORE, un nuevo conjunto de datos VQA que evalúa la comprensión cognitiva profunda del contenido de la película.
Generar pares de preguntas y respuestas de alta calidad a través de un enfoque innovador de lluvia de ideas agencial utilizando LLM.
Proponer un sistema de evaluación integral para evaluar el desempeño de tareas cognitivas profundas de los modelos VQA.
Desarrollo del módulo ACE para mejorar la capacidad de inferencia de VLM.
Contribuir al avance de la comprensión de las películas por parte de los sistemas de IA.
Limitations:
Falta de mención específica del tamaño y la diversidad del conjunto de datos MovieCORE.
Las mejoras de rendimiento del módulo ACE pueden estar limitadas a conjuntos de datos y modelos específicos.
Se necesita una mayor validación de la objetividad y confiabilidad de la prueba cognitiva propuesta.
👍