Este artículo estudia el aprendizaje por refuerzo (AR) para la planificación privilegiada en la conducción autónoma. Los enfoques existentes se basan en reglas, pero carecen de escalabilidad. En cambio, el AR ofrece alta escalabilidad y evita el problema del error acumulativo del aprendizaje por imitación. Los enfoques de AR existentes para la conducción autónoma utilizan funciones de recompensa complejas que agregan múltiples recompensas individuales, como el progreso, la posición y la orientación. Este artículo demuestra que el PPO no optimiza estas funciones de recompensa a medida que aumenta el tamaño del minilote, lo que limita su escalabilidad. Por lo tanto, este artículo propone un novedoso diseño de recompensa que optimiza una única recompensa intuitiva: la finalización de la ruta. Las infracciones se penalizan con la finalización del episodio o con una disminución multiplicativa de la finalización de la ruta. Demostramos que el PPO entrenado con la recompensa simple propuesta escala adecuadamente con minilotes de mayor tamaño y logra un rendimiento mejorado. El entrenamiento con minilotes de gran tamaño permite un escalado eficiente mediante paralelismo de datos distribuidos. Escalamos el entrenamiento a 300 millones de muestras en CARLA y 500 millones de muestras en nuPlan en un único nodo de 8 GPU. El modelo resultante obtuvo 64 DS en el benchmark CARLA longest6 v2, superando significativamente a otros métodos de aprendizaje por aprendizaje (RL) con recompensas más complejas. Con modificaciones mínimas en el método CARLA, también logró el mejor enfoque basado en el aprendizaje en nuPlan. En el benchmark Val14, obtuvo 91,3 puntos para tráfico no responsivo y 90,6 puntos para tráfico responsivo, lo que representa una mejora de 10 veces con respecto a estudios anteriores.