[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Orbis: Superando los desafíos de la predicción a largo plazo en modelos de conducción del mundo

Created by
  • Haebom

Autor

Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox

Describir

En este artículo, señalamos que los modelos mundiales existentes para la conducción autónoma presentan dificultades para la predicción a largo plazo y la generalización a situaciones complejas. Por ello, desarrollamos un modelo que logra un rendimiento excelente sin supervisión ni sensores adicionales (p. ej., mapas, profundidad, múltiples cámaras, etc.) mediante decisiones de diseño sencillas. A pesar de contar con solo 469 millones de parámetros entrenados con 280 horas de datos de video, logramos un rendimiento de vanguardia, especialmente en situaciones complejas como maniobras de giro y tráfico urbano. Además, comparamos directamente las fortalezas y debilidades de un modelo continuo basado en la coincidencia de flujo y un modelo de token discreto utilizando un tokenizador híbrido, y concluimos que el modelo autorregresivo continuo es menos vulnerable a decisiones de diseño individuales y más robusto. El código, el modelo y los resultados cualitativos están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Demostramos que es posible construir un buen modelo mundial de conducción autónoma incluso con diseños simples y datos limitados.
Presentando un modelo que demuestra fortalezas en situaciones de conducción difíciles (curvas, tráfico urbano, etc.).
Demostración experimental de la superioridad del modelo autorregresivo continuo.
Facilitar la reproducibilidad y el seguimiento de la investigación a través de código y resultados abiertos.
Limitations:
280 horas de datos de video pueden ser un conjunto de datos relativamente limitado. Existe potencial para mejorar el rendimiento al usar más datos.
Se necesita una mayor validación del rendimiento de la generalización en una variedad de entornos y situaciones.
Análisis comparativo utilizando tokenizador híbrido, pero falta de comparación con otros tipos de modelos.
👍