Dans cet article, nous soulignons que les modèles mondiaux existants pour la conduite autonome peinent à prédire et à généraliser à long terme les situations difficiles. Nous développons un modèle qui atteint d'excellentes performances sans supervision ni capteurs supplémentaires (par exemple, cartes, profondeur, caméras multiples, etc.) grâce à des choix de conception simples. Malgré seulement 469 millions de paramètres entraînés sur 280 heures de données vidéo, nous obtenons des performances de pointe, notamment dans des situations difficiles telles que les virages et la circulation urbaine. De plus, nous comparons directement les forces et les faiblesses d'un modèle continu basé sur la correspondance de flux et d'un modèle à jetons discrets utilisant un tokenizer hybride, et concluons que le modèle autorégressif continu est moins vulnérable aux choix de conception individuels et plus robuste. Le code, le modèle et les résultats qualitatifs sont accessibles au public.