En este artículo, proponemos un nuevo marco para la respuesta a preguntas abiertas mediante video que mejora la profundidad y robustez de la inferencia en escenarios reales complejos en el conjunto de datos CVRR-ES. Los Modelos Multimodales de Video-Grandes (Video-LMM) existentes presentan una comprensión contextual limitada, un modelado temporal deficiente y una generalización deficiente a preguntas ambiguas o constructivas. Para abordar estos problemas, presentamos un mecanismo de integración de indicaciones y respuestas que coordina múltiples Modelos de Video-Grandes (VLM) heterogéneos, adaptados a diferentes rutas de inferencia a través de una cadena de pensamiento estructurada. Un Modelo de Lenguaje Grande (LLM) externo actúa como evaluador e integrador, seleccionando y fusionando las respuestas más fiables. Experimentos exhaustivos demuestran que el método propuesto supera significativamente a los modelos de referencia existentes en todas las métricas de evaluación, demostrando una excelente generalización y robustez. Nuestro enfoque proporciona una estrategia ligera y escalable para avanzar en la inferencia multimodal sin reentrenamiento del modelo, y sienta una base sólida para futuros desarrollos de Video-LMM.