Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DRAMA-X: Un punto de referencia de predicción de intenciones y razonamiento de riesgos de grano fino para la conducción

Created by
  • Haebom

Autor

Mihir Godbole, Xiangbo Gao, Zhengzhong Tu

Describir

Este artículo destaca la importancia de predecir los movimientos a corto plazo de los usuarios vulnerables de la vía pública (VRU) para la seguridad de la conducción autónoma, en particular en entornos urbanos donde prevalecen comportamientos ambiguos o de riesgo. Si bien los modelos de lenguaje visual (VLM) existentes permiten el reconocimiento de vocabulario abierto, su aplicación a la inferencia de intención de grano fino sigue siendo un área inexplorada. Para abordar esta brecha, este artículo presenta DRAMA-X, un punto de referencia de grano fino generado a través de un flujo de anotación automática basado en el conjunto de datos DRAMA. DRAMA-X incluye cuadros delimitadores de objetos, clasificaciones de intención de nueve direcciones, puntajes de riesgo binarios, sugerencias de acción autónoma generadas por expertos y resúmenes descriptivos de movimiento para 5686 marcos de riesgo de accidente. Estas anotaciones permiten una evaluación estructurada de cuatro tareas interrelacionadas (detección de objetos, predicción de intención, evaluación de riesgos y sugerencia de acción) que son centrales para la toma de decisiones de conducción autónoma. Como punto de partida, este artículo propone SGG-Intent, un marco de trabajo ligero y sin entrenamiento que replica el proceso de inferencia de los vehículos autónomos. SGG-Intent genera secuencialmente un grafo de escena a partir de la información visual mediante un detector basado en VLM, infiere intenciones, evalúa el riesgo y recomienda acciones mediante un paso de inferencia compositiva basado en un modelo de lenguaje a gran escala. Evaluamos varios VLM de última generación y comparamos su rendimiento en cuatro tareas de DRAMA-X. Los resultados experimentales demuestran que la inferencia basada en grafos de escena mejora la predicción de intenciones y la evaluación del riesgo, especialmente cuando las señales contextuales se modelan explícitamente.

Takeaways, Limitations

Takeaways:
El punto de referencia DRAMA-X establece un nuevo estándar para la predicción de la intención de VRU en la conducción autónoma.
SGG-Intent presenta un enfoque eficaz para la inferencia de intenciones y la evaluación de riesgos utilizando VLM.
Demostramos experimentalmente que la inferencia basada en gráficos de escena mejora la precisión de la predicción de intenciones y la evaluación de riesgos de VRU.
Limitations:
DRAMA-X El tamaño y la diversidad del conjunto de datos pueden ser limitados.
El rendimiento de SGG-Intent depende del rendimiento del VLM y LLM utilizados.
Se necesita más investigación sobre el rendimiento de la generalización en entornos del mundo real.
Es posible que falten evaluaciones de robustez para diversos entornos y situaciones.
👍