En este artículo, señalamos que los modelos mundiales existentes para la conducción autónoma presentan dificultades para la predicción a largo plazo y la generalización a situaciones complejas. Por ello, desarrollamos un modelo que logra un rendimiento excelente sin supervisión ni sensores adicionales (p. ej., mapas, profundidad, múltiples cámaras, etc.) mediante decisiones de diseño sencillas. A pesar de contar con solo 469 millones de parámetros entrenados con 280 horas de datos de video, logramos un rendimiento de vanguardia, especialmente en situaciones complejas como maniobras de giro y tráfico urbano. Además, comparamos directamente las fortalezas y debilidades de un modelo continuo basado en la coincidencia de flujo y un modelo de token discreto utilizando un tokenizador híbrido, y concluimos que el modelo autorregresivo continuo es menos vulnerable a decisiones de diseño individuales y más robusto. El código, el modelo y los resultados cualitativos están disponibles públicamente.