Cet article étudie l'apprentissage par renforcement (RL) pour la planification privilégiée en conduite autonome. Les approches existantes sont basées sur des règles, mais manquent d'évolutivité. En revanche, l'apprentissage par renforcement offre une évolutivité élevée et évite le problème d'erreurs cumulatives de l'apprentissage par imitation. Les approches d'apprentissage par renforcement existantes pour la conduite autonome utilisent des fonctions de récompense complexes qui agrègent plusieurs récompenses individuelles, telles que la progression, la position et l'orientation. Cet article démontre que l'apprentissage par renforcement (PPO) ne parvient pas à optimiser ces fonctions de récompense lorsque la taille du mini-lot augmente, ce qui limite son évolutivité. Par conséquent, cet article propose une nouvelle conception de récompense qui optimise une récompense intuitive unique : l'achèvement du chemin. Les violations sont sanctionnées soit par la fin de l'épisode, soit par une diminution multiplicative de l'achèvement du chemin. Nous démontrons que l'apprentissage par renforcement (PPO) avec la récompense simple proposée s'adapte bien aux mini-lots de plus grande taille et améliore les performances. L'apprentissage avec des mini-lots de grande taille permet une mise à l'échelle efficace grâce au parallélisme des données distribuées. Nous avons étendu l'apprentissage à 300 millions d'échantillons dans CARLA et 500 millions d'échantillons dans nuPlan sur un seul nœud à 8 GPU. Le modèle obtenu a obtenu 64 DS sur le benchmark CARLA longest6 v2, surpassant ainsi largement les autres méthodes RL utilisant des récompenses plus complexes. Avec des modifications minimes de la méthode CARLA, il a également obtenu la meilleure approche basée sur l'apprentissage sur nuPlan. Sur le benchmark Val14, il a obtenu 91,3 points pour le trafic non réactif et 90,6 points pour le trafic réactif, soit une amélioration de 10 fois par rapport aux recherches précédentes.