ModaRoute es un sistema de enrutamiento inteligente basado en LLM que selecciona dinámicamente la modalidad óptima para la recuperación de video multimodal. Los métodos actuales de subtitulado de texto denso alcanzan un 75,9 % en Recall@5, pero requieren un costoso procesamiento fuera de línea y omiten información visual importante en el 34 % de los clips donde el texto de la escena no es capturado por ASR. ModaRoute analiza la intención de la consulta y predice las necesidades de información para alcanzar un 60,9 % en Recall@5, a la vez que reduce la sobrecarga computacional en un 41 %. Utiliza GPT-4.1 para enrutar las consultas a ASR (voz), OCR (texto) e índices visuales, y mejora la eficiencia con un promedio de 1,78 modalidades por consulta, en comparación con la búsqueda completa (3,0 modalidades). Los resultados de la evaluación de 1,8 millones de videoclips muestran que el enrutamiento inteligente ofrece una solución práctica para escalar los sistemas de recuperación multimodal, reduciendo los costos de infraestructura y manteniendo la efectividad competitiva en implementaciones reales.