[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Enrutamiento inteligente para la recuperación de video multimodal: cuándo buscar qué

Created by
  • Haebom

Autor

Kevin Dela Rosa

Describir

ModaRoute es un sistema de enrutamiento inteligente basado en LLM que selecciona dinámicamente la modalidad óptima para la recuperación de video multimodal. Los métodos actuales de subtitulado de texto denso alcanzan un 75,9 % en Recall@5, pero requieren un costoso procesamiento fuera de línea y omiten información visual importante en el 34 % de los clips donde el texto de la escena no es capturado por ASR. ModaRoute analiza la intención de la consulta y predice las necesidades de información para alcanzar un 60,9 % en Recall@5, a la vez que reduce la sobrecarga computacional en un 41 %. Utiliza GPT-4.1 para enrutar las consultas a ASR (voz), OCR (texto) e índices visuales, y mejora la eficiencia con un promedio de 1,78 modalidades por consulta, en comparación con la búsqueda completa (3,0 modalidades). Los resultados de la evaluación de 1,8 millones de videoclips muestran que el enrutamiento inteligente ofrece una solución práctica para escalar los sistemas de recuperación multimodal, reduciendo los costos de infraestructura y manteniendo la efectividad competitiva en implementaciones reales.

Takeaways, Limitations

Takeaways:
Demostramos que el enrutamiento inteligente basado en LLM puede mejorar la eficiencia y la escalabilidad de los sistemas de recuperación de video multimodal.
Verificar el efecto de reducir la sobrecarga computacional y los costos de infraestructura.
Presentar una estrategia eficaz de selección de modalidad a través del análisis de la intención de consulta y la predicción de la necesidad de información.
Proporcionando soluciones prácticas para implementaciones del mundo real.
Limitations:
El rendimiento de Recall@5 es algo inferior (60,9%) al del método existente (75,9%).
Debido a la alta dependencia de GPT-4.1, el rendimiento del sistema puede verse afectado por el rendimiento de LLM.
El rendimiento del sistema puede verse limitado por la precisión de ASR y OCR.
Se requiere verificar el rendimiento de generalización para varios tipos de datos de vídeo.
👍