[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Equipo de uno: Cómo resolver problemas complejos de control de calidad de video con Model Synergy

Created by
  • Haebom

Autor

Jun Xie, Zhaoran Zhao, Xiongjun Guan, Yingjian Zhu, Hongzhu Yi, Xinming Wang, Feng Chen, Zhepeng Wang

Describir

En este artículo, proponemos un nuevo marco para la respuesta a preguntas abiertas mediante video que mejora la profundidad y robustez de la inferencia en escenarios reales complejos en el conjunto de datos CVRR-ES. Los Modelos Multimodales de Video-Grandes (Video-LMM) existentes presentan una comprensión contextual limitada, un modelado temporal deficiente y una generalización deficiente a preguntas ambiguas o constructivas. Para abordar estos problemas, presentamos un mecanismo de integración de indicaciones y respuestas que coordina múltiples Modelos de Video-Grandes (VLM) heterogéneos, adaptados a diferentes rutas de inferencia a través de una cadena de pensamiento estructurada. Un Modelo de Lenguaje Grande (LLM) externo actúa como evaluador e integrador, seleccionando y fusionando las respuestas más fiables. Experimentos exhaustivos demuestran que el método propuesto supera significativamente a los modelos de referencia existentes en todas las métricas de evaluación, demostrando una excelente generalización y robustez. Nuestro enfoque proporciona una estrategia ligera y escalable para avanzar en la inferencia multimodal sin reentrenamiento del modelo, y sienta una base sólida para futuros desarrollos de Video-LMM.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que mejora la profundidad y la robustez de la inferencia en la respuesta a preguntas abiertas en video.
Resolver los problemas de falta de comprensión del contexto, modelado temporal débil y escasa capacidad de generalización del Video-LMM existente (__T40922_____).
Rendimiento mejorado a través de un mecanismo de integración de indicaciones y respuestas que coordina múltiples VLM heterogéneos.
Proporcionar una estrategia liviana y escalable para el desarrollo de inferencia multimodal sin reentrenamiento del modelo.
Rendimiento demostrado que supera significativamente los modelos de referencia existentes en todas las métricas de evaluación.
Limitations:
El rendimiento del marco propuesto puede depender del rendimiento de los LLM y VLM utilizados.
Dado que solo se presenta el rendimiento en el conjunto de datos CVRR-ES, el rendimiento de generalización en otros conjuntos de datos requiere más estudios.
Se necesitan más análisis sobre el papel y la confiabilidad de los LLM externos.
Posible aumento del coste computacional debido a la complejidad del mecanismo de integración de indicaciones y respuestas.
👍